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出版说明 




《高级回归分析》是“格致方法_定量研究系列”之一种，由5本讨论高级回 
归分析的小册子组成，分别是《固定效应回归模型》、《现代稳健回归方法》、《删 
截、选择性样本及截断数据回归模型》、《分位数回归模型》及《空间回归模型》。 

《固定效应回归模型》介绍了多种形式的固定效应回归模型，讨论了如何在 
固定效应模型及随机效应模型之间作出选择;《现代稳健回归方法》通过一套统 
一的符号系统，介绍了不同来源的多种稳健回归方法，以及它们彼此之间的联 
系;《删截、选择性样本及截断数据回归模型》是一本有关删截数据、选择性样本 
数据及截断数据的最新研究;《分位数回归模型》提岀了分位数和分位数函数的 
概念，阐述了分位数回归模型，讨论了它们的估计和推断方法，并通过具体的例 
子演示了对分位数回归估计值的解释;《空间回归模型》介绍了两种应用最广泛 
的空间回归模 型:空 间定距因变量和空间性误差模型。 
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往事如烟，光阴如梭。转眼间，出国已然十年有余。1996年赴美留学，最初 
选择的主攻方向是比较历史社会学，研究的兴趣是中国的制度变迁问题。以我 
以前在国内所受的学术训练，基本是看不上定量研究的。一方面，我们倾向于 
研究大问题，不喜欢纠缠于细枝末节。国内一位老师的话给我的印象很深，大 
致 是说: 如果你看到一堵墙就要倒了，还用得着纠缠于那堵墙的倾斜角度究竟 
是几度吗？所以，很多研究都是大而化之，只要说得通即可。另一方面，国内 
(十年前)的统计教学，总的来说与社会研究中的实际问题是相脱节的。结果 
是，很多原先对定量研究感兴趣的学生在学完统计之后，依旧无从下手，逐渐失 
去了对定量研究的兴趣。 

我所就读的美国加州大学洛杉矶分校社会学系，在定量研究方面有着系统 
的博士训练课程。不论研究兴趣是定量还是定性的，所有的研究生第一年的头 
两个学期必须修两门中级统计课，最后一个学期的系列课程则是简单介绍线性 
回归以外的其他统计方法，是选修课。希望进一步学习定量研究方法的可以在 
第二年修读另外一个三学期的系列课程，其中头两门课叫“调查数据分析”，第 
三门叫“研究设计”。除此以外，还有如“定类数据分析”、“人口学方法与技术”、 
“事件史分析”、“多层线性模型”等专门课程供学生选修。该学校的统计系、心 
理系、教育系、经济系也有一批蜚声国际的学者，提供不同的、更加专业化的课 
程供学生选修。2001年完成博士学业之后，我又受安德鲁 • 梅隆基金会资助， 
在世界定量社会科学研究的重镇密歇根大学从事两年的博士后研究，其间旁听 
谢宇教授为博士生讲授的统计课程，并参与该校社会研究院 (Institute for Social 
Research ) 定量社会研究方法项目的一些讨论会，受益良多 




2003 年，我赴港工作，在香港科技大学社会科学部，教授研究生的两门核心 
定量方法课程。香港科技大学社会科学部自创建以来，非常重视社会科学研究 
方法论的训练。我开设的第一门课“社会科学里的统计学 ” (Statistics for Social 
Science ) 为所有研究型硕士生和博士生的必修课，而第二门课“社会科学中的定 
量分析”为博士生的必修课(事实上，大部分硕士生在修完第一门课后都会继续 
选修第二门课)。我在讲授这两门课的时候，根据社会科学研究生的数理基础 
比较薄弱的特点，尽量避免复杂的数学公式推导，而用具体的例子，结合语言和 
图形，帮助学生理解统计的基本概念和模型。课程的重点放在如何应用定量分 
析模型研究社会实际问题上，即社会研究者主要为定量统计方法的“消费者”而 
非“生产者”。作为“消费者”，学完这些课程后，我们一方面能够读懂、欣赏和评 
价别人在同行评议的刊物上发表的定量研究的 文章; 另一方面，也能在自己的 
研究中运用这些成熟的方法论技术。 

上述两门课的内容，尽管在线性回归模型的内容上有少量重复，但各有侧 
重。“社会科学里的统计学 ” (Statistics for Social Science ) 从介绍最基本的社会 
研究方法论和统计学原理开始，到多元线性回归模型结束，内容涵盖了描述 
性统计的基本方法、统计推论的原理、假设检验、列联表分析、方差和协方差 
分析、简单线性回归模型、多元线性回归模型，以及线性回归模型的假设和模 
型诊断。“社会科学中的定量分析”则介绍在经典线性回归模型的假设不成 
立的情况下的一些模型和方法，将重点放在因变量为定类数据的分析模型 
上，包括两分类的 logistic 回归模型、多分类 logistic 回归模型、定序 logistic 回 
归模型、条件 logistic 回归模型、多维列联表的对数线性和对数乘积模型、有关 
删节数据的模型、纵贯数据的分析模型，包括追踪研究和事件史的分析方法。 
这些模型在社会科学研究中有着更加广泛的应用。 

修读过这些课程的香港科技大学的研究生，一直鼓励和支持我将两门课的 
讲稿结集出版，并帮助我将原来的英文课程讲稿译成了中文。但是，由于种种 
原因，这两本书拖了四年多还没有完成。世界著名的出版社 SAGE 的“定量社 
会科学研究”丛书闻名遐迩，每本书都写得通俗易懂。中山大学马骏教授向格 
致出版社何元龙社长推荐了这套书，当格致出版社向我提出从这套丛书中精选 
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一批翻译，以飨中文读者时，我非常支持这个想法，因为这从某种程度上弥补了 
我的教科书未能出版的遗憾。 

翻译是一件吃力不讨好的事。不但要有对中英文两种语言的精准把握能 
力，还要有对实质内容有较深的理解能力，而这套丛书涵盖的又恰恰是社会科 
学中技术性非常强的内容，只有语言能力是远远不能胜任的。在短短的一年时 
间里，我们组织了来自中国内地及港台地区的二十几位研究生参与了这项工 
程，他们目前大部分是香港科技大学的硕士和博士研究生，受过严格的社会科 
学统计方法的训练，也有来自美国等地对定量研究感兴趣的博士研究生。他 
们是： 

香港科技大学社会科学部博士研究生蒋勤、李骏、盛智明、叶华、张卓妮、 
郑冰岛，硕士研究生贺光烨、李兰、林毓玲、肖东亮、辛济云、於嘉、佘珊珊，应 
用社会经济研究中心研究员李 俊秀; 香港大学教育学院博士研究生洪 岩璧； 
北京大学社会学系博士研究生李丁、赵亮员；中国人民大学人口学系讲师巫 
锡炜•，中国台湾“中央”研究院社会学所助理研究员林宗弘;南京师范大学心 
理学系副教授陈陈;美国北卡罗来纳大学教堂山分校社会学系博士候选人姜 
念涛; 美国加州大学洛杉矶分校社会学系博士研究生宋曦。 

关于每一位译者的学术背景，书中相关部分都有简单的介绍。尽管每本 
书因本身内容和译者的行文风格有所差异，校对也未免挂一漏万，术语的标 
准译法方面还有很大的改进空间，但所有的参与者都做了最大的努力，在繁 
忙的学习和研究之余，在不到一年的时间内，完成了三十五本书、超过百万字 
的翻译任务。李骏、叶华、张卓妮、贺光烨、宋曦、於嘉、郑冰岛和林宗弘除了 
承担自己的翻译任务之外，还在初稿校对方面付出了大量的劳动。香港科技 
大学霍英东南沙研究院的工作人员曾东林，协助我通读了全稿，在此我也致 
以诚挚的谢意。有些作者，如香港科技大学黄善国教授、美国约翰 • 霍普金 
斯大学郝令昕教授，也参与了审校 工作。 

由于所选每本书都有一篇序言，对相关方法的背景和应用作了很好的介 
绍，我们均予以保留，内容在此不再赘述。为了方便起见，我们将内容相似的书 
目集册出版，每册三至五本不等，共八册，它们分 别是: 《线性回归分析基础》、 



《髙级回归分析》、《广义线性模型》、《列表数据分析》、《纵贯数据分析》、《因果关 
系模型》、《社会科学中的数理基础及应用》和《数据分析方法五 种》。 所冠书名 
未必能精准涵盖其中的内容，读者可自行参阅每本书的序言或目录。 

我们希望本丛书的出版，能为推动国内社会科学定量研究的扎实学风作出 
一点贡献。 


吴晓刚 

于香港九龙清水湾 
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在最近的一次会议上，我聆听了某研究者分析国家一年度 （ country - year ) 数据的报 
告，理应使用固定效应模型，他用的却是随机效应模型。而那篇文章却受到了来自不同 
社会科学背景的学者的热烈欢迎。显然，在诸多社会科学专业里,就如何选用固定效应 
模型和随机效应模型还存在很多疑惑，很多人甚至还不清楚这些模型有何用处。无疑， 
埃里森讨论的是这两种模型更重要和一般的方面。本书将很好地满足“社会科学定量研 
究方法丛书”在这一主题上的需要，尤其是考虑到现在获得跟踪调查数据 (panel data ) 越 
来越容易的现实①。 

上述国家一年度数据代表着这样一种数据类型，在这种数据中，个体案例得到了历 
时的（多次)观察。动态跟踪调查 （panel survey ) 之所以近年来非常流行，一个重要的原 
因是跟踪数据允许研究者把握社会的发展变化，而把握这种变化是真正理解社会机制的 
必要条件。尽管有些跟踪调查每年都会观测一次，例如英国家户跟踪调查 （British 
Household Panel Study Survey , 简称 BHPS ) 开始于 1991 年，目前仍在持续 进行; 其他一 • 
些则只有少数几轮调查，例如全美青少年健康跟踪调查 （National Longitudinal Study of 


① Panel Data 在经济学文献中通常被翻译为面板数据（如《面板数据计量经济学》[仏狀/ Data 
曼纽尔 • 阿雷拉诺著，朱平芳、徐伟民译，上海财经大学出版社，2008年10月 ） 或综列 
数据(如《计量经 济学: 现代观点》，[美] J . 級伍德里奇著，费剑平译，中国人民大学出版社，2003年3 
月）。面板数据分析 (Panel Data Analysis ) 与时间序列分析 (Time Series Analysis ) 及横截面数据回归 
分析 (Regression Analysis with Cross-Sectional Data ) 构成计量经济学的三大内容。其中横截面数据 
是一个时点上收集的不同观察对象的数据，比方说,就一次人口普査来说就是一个截面 研究; 时间序 
列数据通常是一个观察单位在不同时点的观察结果构成的数据，如我国1978年以来，每一年的 GDP 
的增长速度数据就构成一个时间序列数据。而 Panel Data 将这两种数据的特性综合在一起，首先在同 
一时点上对不同的案例(通常为总体中的一个规模对较小的子样本）的多个特征进行了 观测; 其次， 
对每一个案例在不同时点进行了多次 观测； 由此所得到的数据就是 Panel Data 。 面板数据这一翻译尽 
管因计量经济学而流传甚广，但“面板”的中文字义与英文 panel 含义相差甚远 。 Panel Survey 翻译成 
为面板调查显得笨拙，可翻译为小样本重复调查、固定样本长期追踪调査、追踪调査、纵贯调査或者历 
时调査等等。其中追踪调査或跟踪调査即带有在一段时间内对固定样本进行多次调查的含义。此 
外，根据艾尔 • 巴比的观点 , Longitudinal Data 为历时研究，它包括趋势研究、队列研究和追踪研究三 
类。 一一 译者注 



Adolescent Health in the United States} 只在 1994 年到 2002 年间进行了 3 轮调查。 

不管分析单位是个人、单位还是国家，回归模型中每个案例在不同时点上的残差都 
将存在一定的相关或互相依赖，这通常是因为不同案例在某些未被观察到的特征上存在 
差异造成的。此时，回归模型有关误差项相互独立的假定被违背(尽管这个一般规律同 
样适应于限值因变量 [limited dependent variable] 回归，但这里我们将讨论限定在线性模 
型上 )。 

固定效应模型和随机效应模型都能解决残差相关问题。但固定效应模型做得彻底 
得多。用埃里森的话说,这些模型“将每个个体作为其自身的控制。”经此处理，它们实际 
上就控制了所有稳定的、未被观测到的变量，就像这些变量实际得到了观测并被纳入模 
型一样。就此而言，这些模型所起的作用和实验设计中的随机分配如出一辙。 

本书作者在过去30年间为社会科学研究方法作出了持续的贡献，涉及诸多重要的 
主题。他撰写的《事件史分析 》 (Event History Analysis ，1984) ，至今仍是社会科学领域介 
绍事件史数据分析著作的榜样和标准。确切说，在本书中，埃里森介绍了多种形式的 

固定效应模型-可以用于连续因变量的、分类因变量的、计数因变量的甚至结构方程 

情境等一并且讨论了如何在固定效应模型及随机效应模型之间作出选择，这一讨论对 
于本序言开始时提及的那位报告人将大有裤益。 

廖福挺(丁 im Futing Liao) 


第 1 章 I 绪言 


多年以来，统计学领域最具挑战性的议题，是如何创造一些方法以从非 
实验数据中进行有效的因果推论。而在这一议题内最难的问题，是如何从 
统计上控制无法观测的变量。对于实验主义者而言，问题的解决方案非常 
简 单：随 机分配 （random assignment )。 通过将研究对象随机分配到实验组 
(treatment group ) ，可使这些小组在研究对象各属性上几乎相似，不管这些 
属性是可观测的还是不可观测的。但是在非实验研究中，控制这些潜在干 
扰变量的传统办法就是测量它们，并把它们放到回归模型里。没有测量就 
没有控制。 

在本书中，我描述了一些被称为固定效应模型的回归模型，这些模型使得 
我们有可能对那些没有或无法被测量的变量进行控制。基本的思想非常简单: 
用每个个体作为其自身的控制(因素）。例如，如果你想弄清婚姻是否能减少惯 
犯们 (chronic offenders ) 的再犯行为 ( recidivism ) ，可以通过对个体结婚前后遭 
拘捕的比率进行比较。假定其他情况都不变(这是一个很大的假定），前后两个 
时期拘捕率的差异可以作为婚姻对该个体产生的效果的估计。如果我们将人 
群中不同个体的这一差异进行平均，就能得到“平均处置效应 ” (average treat - 
ment effects ) 的估计值。这一估计控制了惯犯们所有的稳定属性。它同时控制 
了容易被测量的变量，诸如性别、民族、种族、出生地，以及更难被控制的变量， 
如智商、儿童期父母的照料情况、遗传结构等。虽然它不控制诸如就业状况、收 
入之类的时变变量，但这些变量通过常规的办法——对其进行测量并放入回归 
模型——就可以得到控制。 

再举一个例子，假如你想研究打电脑游戏的时间是否会影响小孩的学习成 




绩。你在几个时点上对样本里的小孩都测量了这两个变量。针对每个小孩，都 
用打电脑游戏的时间对其学习成绩估计一个回归，然后将得到的回归参数进行 
平均，就可以完成一个基础的固定效应模型。因为只有小孩自身 ( within - child ) 
的变化被用来估计回归参数，小孩的所有固定属性都得到了控制。 

使用固定效应模型有两个基本的数据 要求: 第一，对于每一个个体，因变量 
至少要被测量两次。这些测量结果应该具有直接的可比性，也就是说，它们具 
有同样的意义和度量单位。第二，样本中应该有相当比例的案例的关键自变量 
在不同时点上的取值有所变化。固定效应模型在估计诸如性别、民族之类的非 
时变变量的作用效果上几乎毫无用处。当然，有些统计学家认为谈论这些变量 
的因果效应根本就毫无意义 ( Sobel ， 1995)。 

为什么非得用一本书来介绍固定效应模型呢？第一，不同类型的因变量需 
要使用不同的方法，不管是定距的、定性的、计数的因变量，还是事件时间。第 
二，对于特定类型的因变量，通常有两种及以上的方法来使用固定效应模型，我 
们需要理解它们的异同。第三，也是最具挑战性的是，若被测量的自变量并非 

“严格的外生 ( exogenous ) 变量”-例如，因变量在某个时点的取值会影响此后 

时点上自变量的取值——还需要求助于一些特殊办法(而且并非总能找到此类 
办法)。 

“固定效应模型”这一概念经常与“随机效应模型”形成对照。很可惜，这一 
术语是众多误解和疑惑的起源。以传统的观点来看，固定效应模型将个体间未 
被观察的差异作为一套固定的参数，它们要么可以被直接估计出来，要么可以 
在估计方程中被抵消掉 (partial out )。 而在随机效应模型中，未被观察的差异被 
处理成为具有特定概率分布的随机变量。 

如果求助于有关实验设计的文献以解释这一差异，你会找到如下 论述： 


如果实验所用的处置水平 （treatment level ) 恰好是推论所试图……的 
某几个水平时，通常把处置效应看作是固定的。如果试图推论的处置效应 
的范围比实验中所用的要大，或者处置水平并未经过有目的的选择……通 
常的做法是把处置水平看做是随机的 ( LaMotte ， 1983:138—139)。 
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然而，这种描述在非实验情境下是无益的，因为根据他们的建议，几乎在任 
何情境下随机效应模型都更为可取。没有什么比这更荒谬的了。 

从更新潮的框架来看 ( Wooldrige ，2002) ，未被观测的差异通常被当作随机 
变量。这时，将这两种模型区别开来的是已观测的变量与未被观测的变量之间 
的相关结构。在随机效应模型中，未被观测的变量被假定与所有观测变量之间 
不相关(或者，更严格地说，在统计上互相独立）。而在固定效应模型中，允许未 
被观测的变量与任何已观测的变量之间存在相关(这实际上相当于将未被观测 
的变量当作固定的参数)。除非你允许这样的相关，否则就不能真正控制这些 
未被观测变量的作用。正因如此，固定效应模型才有吸引力。 

当然，固定效应模型也有一些潜在的严重不足。前面已经提到，传统的固 
定效应模型不能对不随时间变化的变量产生任何估计。在本书中，我们将看到 
一些用来估计此类变量(如性别和民族)的效果的办法，但是这些估计并没有真 
正控制不可观测的变量。 

第二，在很多情况下，固定效应估计产生的标准误要比随机效应估计的大 
得多，从而导致更大的 P 值和更宽的置信区间。原因很简单，随机效应模型既 
使用了个体内信息，又使用了个体间信息，而固定效应估计只使用了个体内信 
息，在根本上忽略了个体间差异的信息。如果自变量取值在个体间存在很大差 
异，而在同一个体不同时点上的变化不大，那么固定效应估计将很不精确。 

例如，用固定效应模型估计教育(受教育年数)对工资收入的影响就很困 
难。尽管受教育年限会有一定的变化，但绝大多数人是在完成了学业后才开始 
有工资的。一部分人进入劳动力市场后会争取继续教育,但相对于个体间的差 
异，同一个体不同时点的教育差异要小得多。另外，那些成年后教育水平仍然 
有所变化的人可能根本就不同于那些教育水平保持不变的人。 

那我们为什么要拋弃个体间的变异呢？这是因为这些变异很可能与个体 
未被观测的属性混在一块。固定效应模型的思路是避免使用这些“被污染”的 
变异，而只使用那些能够对我们感兴趣的参数产生近似无偏估计的变异。用统 
计学的话说，我们牺牲了效率以减小偏差。在非实验研究 （nonexperimental 
studies ) 中，我想这通常是一个值得的交换。不过，必须记住的是，固定效应模 



8 


高级 @6 分析 


型无法控制随着时间而发生变化的未被观测的变量。例如，在探索婚姻对累犯 
的影响的研究中，结婚很有可能与收人的增加联系在一起。因此，除非收入变 
量被明确地纳入回归模型，否则，估计得到的婚姻的影响实际上将代表收人的 
影响。 

有意思的是，固定效应方法经常被用在随机化的实验中，以提高效率（例 
如，减小抽样变异程度)而非减小偏误。在交叉设计中 （ Serm ， 1993)，每个研究 
对象会在不同的时点接受两次及以上的不同的实验处理 ( treatment ) ，这些不同 
处理出现的先后顺序是随机选定的。因此，这些实验处理应该与实验对象之间 
未被观测到的差异不存在实质关联。此外，根据设计，自变量(实验处理）的所 
有变化都是个体内的，而不是个体间的，因此，忽略研究对象之间的差异并不会 
损失任何信息。实际上，因为没有将个体间的变异作为误差项的一部分，固定 
效应分析很可能产生理想的低标准误。 

固定效应方法的另一个诱人之处在于，实现这些方法的软件已经随处可 
得。例如，对于第2章的基本线性模型，一般最小二乘法回归软件就够用了。而 
第6章的高级线性模型可以通过很多用来做结构方程模型的程序进行估计 D 第 
3章的 logstic 回归模型，如果是两期数据，常规的 logistic 程序就够用了。如果 
是多期数据，则可以用条件 logit 程序解决，这种程序在绝大多数综合性的统计 
软件包中都有。用于计数数据的固定效应模型(第4章)可以用常规的泊松或负 
二项回归软件进行估计。最后，第5章的事件史模型可以用 Cox 回归标准程序 
或常规 logit 程序(在事件不重复发生的情况下)进行估计。 

要想从本书得到最大的益处，你应该已经对基本的统计推论原则有所了 
解，包括标准误、置信区间、假设检验、 P 值、偏差、有效性等等 （ LewLs - Beck ， 
1995)。对于具体的章节，你应该对作为固定效应方法基础的那些特定回归方 
法有所了解。这些方法包括第2章的一般线性回归 ( Allison ，1999 b )、 第3章的 
logistic 回归 （ Allison ，1999 a ; Pampel ， 2000)、第4章的泊松及负二项回归 
(Dunteman ^ Ho , MOS )、 第5章的 Cox 回归 （ Allison , 198 4 ) 以及第6章的线 
性结构方程模型 ( Long ， 1983)。 

第2章到第5章例题的运算我用的是 Stata 软件 ( www . stata . com )， 它有 
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大量用于固定效应回归的命令。这些章节所有例题的 Stata 命令在附录1中都 
可以找到。第6章使用的是 Mplus 软件 ( www . statmodel com ) ，这一章的命令 
见附录2。本书的部分内容来自于笔者此前在 SAS ⑧出版社出版的《用 SAS 对 
纵贯数据进行固定效应回归分析》一书 Effects Regression Methods for 
Longitudinal Data using SAS ® ， 2005 ， SAS Institue Inc . ) 0 希望了解如何用 
SAS 进行固定效应分析的读者可以参看该书。 



第 2 章 I 线性固定效应模 型：基 本原理 


在这一章，我们讨论的固定效应模型，要求数据中的因变量为定距测量变 
量，并且因变量与自变量之间是线性决定关系。在数据中，我们有一组个体 
(i = 1，…， n )， 并且每一个体都至少在两个时点 G = 1，…， T ) 上得到测量。 
在这里，每一时点常被称为一个“时期”。 

下面是模型的表示方 法:我 们令％表示因变量，用向 量心表 示一套在不同 
时点有所变化的自变量，另外还有一套不随时间变化的自 变量％ (如果你觉得 
使用向量不舒服，可以把它们当成单变量来解释)。我们为^建立的基本模型 
如下： 

yu = fM +/3x" + yzi+ai +e l£ [2.1] 

其中， a 是截距，每一个时期都可以不同#和 y 是系数向量。尽管方程 2,1 看 
起来像是严格的截面数据模型 (strictly cross - sectional ) ，但知 向量要纳入时滞 
变量 Gagged versions of i ) ，一点障碍也没有，只不过要求研究者必须至少有三 
期数据，才能估计一个一期时滞模型 (a model with a lag of one period )。 

在上式中，两个“误差”项&和^的特性表现彼此相同。每一个体在每个不 
同时点都有一个不同的^ ;但^只在不同个体之间有所不同，不随时间变化而 
变化。这样，我们可以认为％代表着所有未被观测到的非时变变量对于^的综 
合影响。相反， e i 7 代表每一时点上的纯粹随机变动。 

现在，我要对 h 做一个很强的假定，即每个^的均值为0，方差不变(对所有 
的 i 和 O ，并且在统计上独立于所有其他因素 ( 3^除外)。这些假定中，0均值假 
定并不关键，只有在对截距进行估计时才有影响。方差不变的假定有时可以放 
松，以允许不同时点〖上的方差有所差异。值得提醒的是，任意时点的^都与任 
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何其他时点的独立，这意味着 A 是严格的外生 （strictly exogenous ) 变量。这 
一假定在某些情况下可以有所松动，但因此涉及的问题绝非无足轻重，也不单 
纯是技术性问题。在第六章我将讨论其中的一些问题。 

至于 a , ，在传统的固定效应分析中，它被假定代表《个固定参数，它们要么 
可以被直接估计出来，要么可以通过某种方式从估计方程中消除掉。如第1章 
已经提到的，在这一章，我们将采用一种新的策略来理解&，假定它代表的是一 
套随机变量。尽管我们会假定&和 h 在统计上相互独立，但我们允许&与时 
变解释向量 〜之间 的任意相关。另外，如果我们并不关心 y ， 也可以允许 与％ 
之间任意相关。此种相关的纳入把固定效应方法与随机效应方法区别开来，同 
时也才让我们敢说固定效应方法“控制”了不随时间变化而变化的不可观测变 
量 ( unobservables )。 此刻，我们还不需要对仏的均值和方差作任何假定。 


两期数据（固定效应分析） 

当变量只被观察两次(了 = 2) 时，方程 2. 1的估计非常简单。对应的两个 
方程分 别为： 

yn = fJi \ +/?Xn -\-yZi ~\~ai +ea 

ya — p-z + y^i +afi + ei2 [2_ 2] 

从第二个方程中减去第一个方程，我们就得到了“一阶差分 ” (first differ - 
ence ) 方程： 

: yn — ： y “ = ("2 — 户1 ) +召(不2 _ 工 ii ) + ( e ‘2 — e * i ) [2* 3] 

这一方程可以被改 写成： 

Ayi — + /? + Ae * [2. 4] 

其中，△表示差分值 (difference score ). 注意， m 和 y %被从方程中“差分掉” 
了。这样，我们就不用再担心^及其与 △ A 之间的可能相关了。当然，从另一 
方面来讲，我们也就失去了估计 y 的机会。由于〜和:^ 2 分别都与〜和&无关， 
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可推出与 Ae , 也相互独立。这意味着通过 Xt 差分进行一般最小二乘 ( OLS ) 
回归就能得到0的无偏估计。 

现在让我们将这一方法用于实际数据。我们的样本来自全美青少年跟踪 
调查 （National Longitudinal Survey of Youth ， 简称 NLSY ； Center for Human 
Resource Research , 2002) 。卩 1 ]从原本要大得多的数据集中，我抽取了一个只包 
含581个小孩的子样本，他们在1990年、1992年及1994年都接受过调査。第 
一步，我们只考虑三个在三次调查中都得到测量的 变量： 

ANTI 反社会行为（取值范围 0 到 6) 

SELF 自信水平(取值范围 6 到 24) 

P 0 V 如果家庭贫困则编码为1，否则为 0 


此刻，我们先忽略中间一年 （1992 年）的观察记录,只使用1990年和1994 
年的数据。分析的目标是对以 ANTI 为因变量[ 2 ] ， SELF 和 POV 为自变量的 
线性方程进行 估计： 

ANTI , = fx t +^ SELF , + 择 POV , +a + e f , r = 1, 2 [2. 5] 

通过如此表达这一模型，我们假定了某种特定方向的因果关系，具体而言， 
是 SELF 和 P 0 V 影响 ANTI ， 而不是反过来。我们还假定了因果效应是同期发 
生的 ( SELF 和 P 0 V 不存在时滞效应）。这两个假定在第6章中将会被放宽。 
最后，我们假定房和锋在两个时期是一样的，不过这一假定很快就会被放宽。 
相反，我们让截距在各个时期有所不同，允许非 SELF 或 POV 变化结果的反 
社会行为的平均水平在不同时期有所变化。 

作为开始，我们先用一般最小二乘回归分别对两个时期估计方程 2. 5。结 
果呈现在表 2. 1的头两列。并不意外的是，在两个年份的数据中,贫穷都与较高 
水平的反社会行为有关，而自信与较低的反社会行为水平相关。两个年份的回 
归系数都非常相似。 


这两个回归都没有对非时变变量(如性别、民族等)进行任何控制。但是， 
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通过对差分进行回归，而不是将这类变量纳入方程，我们就能控制所有非时变 


自变量。对于每个小孩及每个变量，我们都用1994年的取值减去1990年的取 


值，然后用 ANTI 差分对 SELF 差分和 POV 差分做回归。 POV 是虚拟变量，似 
乎不宜用一个值减去另一个值。但事实上，在这方面，虚拟变量可像任何其他 
变量一样处理。 

差分回归的结果在表 2. 1的最后一列。尽管方程是以差分的形式估计的， 
但回归系数的解释和直接估计 2. 5式时一样。它们表示某一年的每个变量对当 
年因变量取值的影响。对自信水平这一变量来说，差分方程估计得到的系数处 
于两个年份分开估计得到的系数之间，并且仍然高度显著。而贫困状况的回归 
系数则要小很多，并且在统计上不再显著。 


表 2.1 反社会行为对自信水平及贫困状况的 OLS 回归 



1990 

1994 

差分值 

系数 

标准误 

系数 

标准误 

系数 

标准误 

截距 

2. 357 ## 

0. 384 

2. 888 

0. 447 

0. 209好 

0. 063 

SELF 

-0. 050** 

0.019 

-0. 064** 

0. 021 

—0. 056** 

0.015 

POV 

0. 595** 

0. 126 

0. 547” 

0. 148 

-0. 036 

0. 128 

R 2 

0. 05 


0. 04 


0. 02 



注 ： ** P<lo 


固定效应估计结果与用其他方法估计得到的结果差异巨大的情况是十分 
常见的。在这个例子里，可能的解释之一是，两个年份分开回归得到的贫困效 
应估计是虚假的，反映的是贫困与某些影响反社会行为的非时变变量之间的 


相关。 


当然，结论不能下得太过草率。只要常规回归产生的系数显著，而固定效 
应回归产生的系数不显著，就存在两种可能的 解释: U ) 固定效应系数从大小上 


看要小得多，或者 ( b ) 固定效应标准误大得多。正如前文已经提过的，固定效应 
回归系数的标准误通常比其他模型的标准误大，尤其是在自变量的历时变化很 
小时。事实上，贫困状况的变异主要存在于女孩之间，仅有24%的女孩在1990 
到 1994 年期间脱离或陷人贫困境地 (即 发生过个体内的变 化)。 
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不过，差分方程中贫困状况回归系数的标准误差不多与1990年的一样，比 
1994年的甚至还小。因此，变异不足在这里并不成为问题。看来，在控制了非 
时变变量之后，贫困状况的影响确实有较大的衰退。总的经验是，一旦固定效 
应方法得到的 P 值与其他方法显著不同时，一定要同时检査系数及其标准误。 

最后， 可以看到截距 0. 209高度显著。这一系数 表示: 在自信水平及贫困状 
况未发生变化的情况下,一个人的反社会行为从时间1到时间2的变化量估 
计值。 

两期数据差分法的扩展 

方程 2. 1对应的基本固定效应模型可以被扩展，以允许 x 和 z 的影响在时 
间上存在差异。在两期数据情况下，我们可以将上述方程改写成每个时期的系 
数完全不同的 方程： 

3^1 = "1 + 译义 1 + 7\Zi +a t - +£ii 

yi2 = fxz + ^2Xit + y 2 zi +ai +e t -2 [2. 6] 

取一阶差分，合并同类项， 得到： 

yn ~ yn = ("2 — ) + 译 (；2 — 工 ,1 ) + (/?2 —/ 3 i) x i} 

+ (/2 — yi ) 之 i + (。2 — £il ) [2. 7] 

这一方程可以被改 写成： 

Ayi = △"+戌缸 + A/?xi + Ayzi + Ae, 

关于这一方程，有三点值得注意。第一，和以往 一样… 被差分掉了，因此 
我们无需担心它的潜在干扰。第二^没有被消除，并且其系数向量等于两个 
时点对应系数向量之差。由此我们知道，回归系数在不同时期发生改变的非 
时变变量必须被明确地纳入方程。固定效应只能对不随时间变化而变化的非 
时变变量的影响进行控制。第三，现在，方程含有自变量 A ,并且其回归系数等 
于两时期对应系数之差。因此，对于 z 和^来说，检验它们的系数等于0与检 
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验戽=/?2或 yi = 72 等价。 

下面我们尝试将这一模型用于 NLSY 数据。该数据集还包括如下非时变 
变量，我们将把它们作为可能的解释变量来检査： 


BLACK 

如果小孩是黑人则等于1，否则为 o 

HISPANIC 

如果小孩是西班牙裔则等于1，否则为 0 

CHILDAGE 

小孩在 1990 年的年龄 

MARRIED 

如果其母亲在 1990 年处于在婚状态则等于 1， 否则为 0 

GENDER 

女孩等于1，男孩等于 0 

MOMAGE 

小孩出生时母亲的年龄 

MOMWORK 

如果母亲 1990 年处于在业状态则为 1， 否则为 0 


前两个变量 BLACK 和 HISPANIC 分别代表一个三分变量的两个类别，参 
照组为非西班牙裔白人。这7个变量将和自信水平及贫困状况的差分一起被纳 
人到反社会行为的差分方程中。一同被纳入模型的还有1990年测量的自信水 
平及贫困状况。 


表 2. 2扩展差分模型的 OLS 估计 



系数 

标准误 

P 值 

截距 

—0. 550 

1.360 

0. 6859 

SELF 差异分 

—0_ 060 

0. 020 

0. 0024 

POV 差异分 

0. 031 

0. 156 

0. 8446 

1990 年的 SELF 

—0. 018 

0.025 

0. 4826 

1990 年的 POV 

O. 121 

0. 178 

0. 4991 

BLACK 

-0. 100 

0.155 

0. 5158 

SPANIC 

0_ 084 

0.164 

0. 6109 

CHILDAGE 

0. 220 

0.107 

0. 0409 

MARRIED 

一 0_ 206 

0.154 

0.1808 

GENDER 

0. 101 

0.126 

0. 4262 

MOMAGE 

—0. 040 

0. 030 

0_ 1842 

MOMWORK 

一 0.153 

0,140 

0. 2735 
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呈现在表 2. 2中的结果与表 2.1 中的发现一致。自信水平(差分)的回归 
系数为一 0. 06且高度显著，而贫困状况(差分）的回归系数高度不显著。1990 
年的自信水平及1990年的贫困状况的系数都不显著，表明自信水平及贫困状 
况的影响在不同时期保持不变。在7个非时变变量中，只有一个——小孩在 
1990年的年龄——统计显著（勉强显著而已）。这并不表示其他6个变量不 
会影响反社会行为。而是说它们的影响在1990年和1994年实质上是一 
样的。 

每个个体被观察三期及以上的一阶差分方法 

当每个个体被观测时点数等于3或更多时 ( T > 2)，如何拓展我们刚刚考 
虑过的方法，并不那么显而易见。在上述 NLSY 数据中，我们实际上有3个年 
份的数据——1990, 1992和1994年。一种可能的办法是，建立并估计两个一阶 
差分方程。从等式 2. 2开始，我 们有： 

yi2 — yn = ("2 — "1) + ) 9(^2 — Xa) + (£i2 — £ii ) 

^3 yi2 = ifiz — in) +/ 3 ( x i3 — Xit) + Ui3 — £ 12 ) [ 2 . 8 ] 

这两个方程可以用 OLS 方法分开进行估计，且都能得到对^的无偏估计。 
表 2. 3前面两大列给出了 NLSY 数据的这一结果。两个差分方程中自信水平 
的系数都为负，大小几乎一致，并且都高度显著。贫困状况在两个方程中都很 
不显著。截距表示在控制了上述两个变量后，反社会行为水平从一个时期到下 
一个时期发生的变化。尽管在两个为期两年的时段中，反社会行为都有所增 
长，但只有1992年到1994年的变化在统计上是显著的。 

假定/?系数在不同时期保持不变，则应该对这两个方程进行同时估计， 
以获得最佳效率。这可以通过创建一个每个人有两条记录的统一数据集来 
实现，一条记录包含第一个方程所用的差分值，另一条则包括第二个方程所 
需的差分值。另外还有一个虚拟变量将第一条记录与第二条记录区别开 
来。而且，还需要有一个变量，该变量中，同一个人的两条记录有着相同的 
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ID 号。 

表 2. 3的第三大列给出了对这一包含1162条记录的合并数据集应用 OLS 
回归得到的拟合结果。不岀所料，自信水平和贫困状况的回归系数取值处于前 
两列对应系数取值之间。不过，由于使用了更多的信息，（该结果的)标准误要 
稍微小一些。该模型的截距可以被解释为 p — $的估计值，而方程虚拟变量的 
系数则是对 — ~) — (~ -//!> 的估计。两者都是正值，这说明反社会行为从 
时间1到时间2有所增加，并且从时间2到时间3期间增加得更快。不过，两者 
在统计上都不显著。 


表 2. 3用自信水平及贫困状况解释反社会行为的一阶差分回归 



1992—1994 OLS 

1990—1992 OLS 

组合 OLS 

组合 GLS 

系数 

标准误 

系数 

标准误 

系数 

标准误 

系数 

标准误 

截距 

0. 71** 

0.059 

0. 040 

0. 053 

0. 045 

0. 056 

0. 05 

0. 056 

SELF 

-0. 072** 

0. 016 

-0. 039 料 

0.014 

一 0. 055** 

0.010 

—0. 055^ 

0.010 

POV 

0.216 

0. 136 

0. 197 

0. 133 

0.213 

0. 095 

0. 139 

0_ 094 

方程虚 





0.122 

0. 080 

0. 122 

0, 094 

拟变量 










注， / ><0.01 


尽管组合 OLS 回归估计是无偏的，但它忽视了 e 2 — ei 同 e 3 _ e 2 之间很有可 
能存在的负向相关，因为它们包含一个共同因素 e 2 , 符号却相反。这意味着系 
数估计的效率可能并不充分，且标准误的估计可能有偏差。这一问题可以通过 
先估计出误差项之间的相关，然后用广义最小二乘法 （generalized least 
squares , GLS ) 结合相关办法来解决。 

多数综合性统计软件都带有进行 GLS 分析的程序。这类程序通常需要指 
定一个 ID 变量，以识别哪些记录来自同一个体。这里我用的是 Stata 软件中的 
xtreg 命令及 pa 选项，它能以 GLS 方式估计线性模型。(本例题的) GLS 估计 
结果在表 2. 3的最后一列，它们和前一列的 OLS 系数估计值及标准误非常 
相似。 

一 阶差分方法很容易就能扩展到每个个体被观察三期以上的情况。如 
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果每个个体被观察了 T 个时期，就创建 T 一 1条记录，每条记录都含有各变 
量相邻两个时期的差分值。此外，必须有一个变量赋予来自同一个体的所 
有记录相同的 ID 号，而另一个或一组虚拟变量则将同一个体的不同记录区 
别开来。然后对全部记录进行回归估计，并利用 GLS 对误差项之间的相关 
进行修正。除非： T 特别大，如大于10,否则最好允许误差项相关矩阵处于 
非结构状态 （ tmstnictured )。 也就是说，该矩阵允许每对误差项之间的相关 
都不同。在: T 较大的情况下，更好的做法是（给该矩阵）强加一个简化结 
构，以减少需要估计的不同相关的数量。更多细节请参见格林的著作 
( Greene ，2000) 0 

每个个体被观察两期及以上的虚拟变量法 

尽管多阶差分法 ( nuxkiple * differem : e ~ score ) 是估计多期数据固定效应模型 
的合理方式之一，不过“固定效应”这一称呼通常被保留给另外一种不同的方 
法，这种方法既可以通过虚拟变量实现，也可以通过创建离均差 （mean devia - 
ticrn ) 的方式来实现。由固定效应法产生的结果与差分法产生的结果虽然经常 
极其相似，但并不完全相同。在两期数据情况下，两种方法给出的结果完全 
相同。 

虚拟变量法所要求的数据集具有非常不同的结构： （ 在这种数据集中） 
每个个体每一时期都有一条记录。以 NLSY 数据为例，要求的数据集中， 
581个小孩每个人都有3条记录，总共有1743条记录。每条记录中同一个 
时变变量的变量名相同，但取值不同。而所有非时变变量的取值，在同一个 
体的不同记录上只是简单复制而已。数据集中有一个 ID 变量，来自同一个 
体的所有记录(在该变量上）取值相同。最后，有一个变量将每个个体的不 
同时期区分开来。例如在 NLSY 数据中， TIME 变量的取值1、2、3对应着 
1990. 1992、1994。表 2. 4呈现了该数据集的前15条记录，对应着开始的 
5个人。 
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表 2. 4每人3条记录的数据集《前 S 个人 } 


ID 

TIME 

ANTI 

SELF 

POV 

GENDER 

1 

1 

1 

21 

1 

1 

1 

2 

1 

24 

1 

1 

1 

3 

1 

23 

1 

1 

2 

1 

0 

20 

0 

1 

2 

2 

0 

24 

0 

1 

2 

3 

0 

24 

0 

1 

3 

1 

5 

21 

0 

0 

3 

2 

5 

24 

0 

0 

3 

3 

5 

24 

0 

0 

4 

1 

2 

23 

0 

0 

4 

2 

3 

21 

0 

0 

4 

3 

1 

21 

0 

0 

5 

1 

1 

22 

0 

1 

5 

2 

0 

23 

0 

1 

5 

3 

0 

24 

0 

1 


为了使用这种方法，首先必须建立一套虚拟变量，以将数据集中的每个个 
体区别开来。在我们的例子里，这意味着(需要建立 ）580 个虚拟变量，以代表 
581个儿童。只要将 ID 变量设置为分类变量，很多统计软件就能自动完成这一 
任务。如果 TIME 变量也被设置成为分类变量，那就会产生两个虚拟变量，以 
区别这三个(调查)年份。然后我们就可以用 OLS (—般最小二乘法)来对系数 
进行估计。事实上，由 ID 变量创建而来的虚拟变量的回归系数是对方程 2. 1中 
的& 的估计，只是其中之一已被限定等于0。 

我在 Stata 中用 reg 命令完成这一回归 W ，结果在表 2. 5左边一栏。这里 
只给出了前9个虚拟变量的系数。 




归分析 



将表 2. 5 中的结果与表 2. 3最后一列(通过一阶差分法得到的结果)进行比 
较，可以看到，自信水平的回归系数及标准误看起来几乎一样。虚拟变量法得 
到的贫困状况的回归系数略微小些，但在两种方法中都很不显著。 TIME _2 和 
TIME .3 的系数表示与参照组 ( TIME _1) 的对比情况。可以发现，就平均水平 
而言，反社会行为随着时间的变化有所增长， TIME _3 显著地高于 TIME _1。 

为了进行比较，表 2. 5右边部分给岀了未放入580个虚拟变量时系数的 
OLS 估计情况。与两期观察情况下看到的一样，两种方法所得结果的较大差异 
主要在于常规 OLS 回归中 POV 的系数要大得多，并且高度显著。因此，当我们 
控制了个体间的所有差异，只关注个体内变化时，贫困对反社会行为的突出影 
响也就消失了 ®。 另外，标准误的比较也有点意思。 POV 系数的标准误在固定 
效应估计中相对较大，这是没有使用个体间差异信息导致的典型结果。另一方 
面，对 SELF 及两个 TIME 虚拟变量来说，固定效应标准误比常规 OLS 的要小。 
为什么会有这种差异呢？这涉及个体内变异与个体间变异的相对大小问题。 
对 POV 变量而言，70%的变异在个体之间，而在 SELF 变量中，这一比例只有 

① 此处 原文为 “the apparent effect of poverty on self-esteem”， 根据 上下文应该是作者笔误的结 
果。因为模型中是用贫困状况解释反社会行为，自信水平并不是因变量。——译者注 
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至于 TIME 虚拟变量，所有的变动都是个体内的，个体之间没有差别。 
(事实上) 最适合使用固定效应分析的情况是 :时变 预测变量的所有变异都是个 
体内的，而在反应变量上，不同个体之间仍然存在大量差异。 

虚拟变量法的问题 在于: 对全部虚拟变量的系数进行估计，会使计算负担 
非常重，尤其是在样本量很大的情况下，甚至会超过软件或机器内存的能力范 
围。幸好，还有另外一种备选的算法——离均差法——能够产生完全一样的结 
果。唯一不足的是，后者不提供代表不同个体的虚拟变量的系数的估计，不过 
它们倒很少是我们所关心的。 

离均差算法是这样进行的。对于每个个体及每个时变变量(包括反应变量 
和解释变量），我们都计算该个体在不同时点上的取值的 均值： 

^ = 士 

n i t 

^ — X) 

n i t 

其中， n , 是个体 ； 被测量的次数。然后用每个变量的观察值减去每个人对应变 
量的平 均值： 

yu = yu — yi 

Xit = Xu — Xi 

最后，将，对工*及表示时间效应的变量做回归。这种方法有时被称为“条 
件”法，因为它把固定效应虚拟变量的系数通过“条件”而去掉了。 

如果手工创建这些离均差值，然后利用普通回归程序估计这些系数，你会 
得到所有这些系数的正确 OLS 估计。但标准误和 p 值是不正确的。这是因为 
常规回归中 I 由度的计算仅基于设定模型中的自变量数，而实际上它应该包括 
模型中潜在地使用了代表样本中不同个体的虚拟变量的数目（在 NLSY 数据中 
为580)。我们当然可以找到正确计算标准误及 p 值的公式 ( Judge ， Hill ， Grif ¬ 
fith & Lee , 1985)，但让软件帮你计算岂不更省事。例如， Stata 中的 xtreg [ 6 ] 
命令就能为固定效应模型提供正确的计算; SAS 程序 PROC GLM 过程步中的 
ABSORB 语句也能做到。 
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利用 xtreg 命令，我设置了一个固定效应模型 ( FE 选项），将 ID 作为识别同 
一个体记录的变量。结果与表 2 . 5 前5行一样。 xtreg 还专门为固定效应模型 
提供了另外几个统计量： 

(1) F 检验，检验所有固定效应虚拟变量系数都等于0这一虚无假设 
是否成立。在这个例子里, p 值比 0.0001 还要小，因此，可以很有把握地拒 
绝虚无假设。这相当于说，有证据表明存在于个体层面的未被观测的异质 
性。也就是说，个体之间在反社会行为上存在着稳定的差异，已被观测到 
的解释变量并不能完全解释这些差异。 

(2) 因变量方差中被固定效应(各个％)所解释的比例的估计，这一统计量 
标着 “ rho(fraction of variance due to u _ i )”。 在这个例子里，它的估计值是 0. 64。 

(3) 固定效应 cr , 与估计的时变自变量线性组合 gA 之间的相关系数的 
估计。在随机效应模型中，这一相关系数被假定等于0。对于当下这个数 
据，该相关系数等于 0. 068。 

(4) 三个确定系数及 2 :个体内确定系数、个体间确定系数及总的确定 
系数。个体内确定系数就是用离均差变量进行回归时得到的常规确定系 
数。这里为0.033。个体间确定系数是各个体的： y 均值与各个体的: y 均值 
预测值之间的相关系数的平方，在此是 0. 041。 最后，总的确定系数 
(0.036) 是^值本身与: y 值预测值之间的相关系数的平方。这三个确定系 
数都是用预测值计算得到的，后者基于估计的回归系数，但没有使用固定 
效应虚拟变量的回归系数。如果将这些系数（在使用虚拟变量法时）纳入 
进来，这一数据的确定系数将提高到 0. 73。 

前面已经提过，这种方法的特征是它不能对非时变自变量的系数进行估 
计。这是很显然的，因为用每个个体的非时变自变量取值(在所有时期都一样) 
减去其对应的个体内均值后，所有个体取值都将等于0。应该记住的是，我们仍 
然控制了所有非时变自变量，尽管它们已被从方程中排除掉了。在下一节，我 
们将进一步讨论如何检验这些变量的影响本身是否也是非时变的。 
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在固定效应法中设置与时间的交互作用 

在两期数据情况下，我们已经知道如何拓展差分法以让自变量的回归系数 
在不同时期有所不同。对于时变变量，将时间1时的测量值纳人原差分模型即 
可。对于非时变变量，则直接纳入模型。在虚拟变量法（或等效的离均差法) 
中，这一扩展是通过加人各变量与时间的交互项来实现的。 ’ 

对于有三期调查的 NLSY 数据，表 2. 6给出了纳入 TIME (当作分类变量处理) 
与时变变量及非时变自变量的交互作用后的模型结果。由于 TIME 有3个类别，因 
此它与每个自变量有两个交互项。注意，模型中不包括非时变自变量的主效应。即 
使我们试图将它们纳入模型，软件也会都丢掉，因为它们在个体内不存在 变异。 


表2, 6与时间的交互作用 



系数 

标准误 

t 

P 

TIME.2 

0. 291 

L 245 

0.23 

0. 82 

TIME.3 

-0. 444 

1. 258 

_ 0. 35 

0. 72 

SELF 

-0. 034 

0.016 

—2-08 

0, 04 

POV 

0. 097 

0. 130 

0. 75 

0. 46 

TIME—2* SELF 

— 0. 026 

0. 020 

-1. 28 

0.20 

TIME.3* SELF 

— 0. 023 

0. 021 

-1. 09 

0. 28 

TIME_2* POV 

-0.112 

0.152 

-0.74 

0.46 

TIME—3* POV 

0. 099 

0. 155 

0. 64 

0.52 

TIME—2 ♦ BLACK 

0.250 

0. 144 

L 74 

0. 08 

TIME 一 3, BLACK 

-o. 110 

0. 144 

一 0.77 

0. 44 

TIME_2* HISPANIC 

0. 190 

0. 154 

1. 23 

0. 22 

TIME_3* HISPANIC 

0. 075 

0.153 

0. 49 

0.62 

TIME—2* CHILDAGE 

0. 076 

0, 100 

0. 76 

0.45 

TIME—3* CHILDAGE 

0. 227 

0. 100 

2. 26 

0. 02 

TIME_2 哥 MARRIED 

—0. 095 

0. 143 

-0. 67 

0.51 

TIME_3* MARRIED 

-0. 176 

0. 143 

-1. 23 

0,22 

TIME-2* GENDER 

0. 041 

0. 118 

0. 35 

0. 73 

TIME_3 X GENDER 

0. 107 

0. 118 

0. 91 

0.37 

TIME 一 2* MAMAGE 

— 0. 027 

0. 028 

一 0. 96 

0.34 

TTME_3* MOMAGE 

-0. 042 

0. 028 

一 1.52 

0, 13 

TIME_2* MOMWORK 

0. 0137 

0. 131 

1. 05 

0.29 

TIME_3* MOMWORK 

-0. 144 

0. 130 

-1. 11 

0.27 
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对于每一个交 互项， t 统计量检 验的是系数在 Time2 或 Time3 时是否与在 
Timel 时不同。在 18 个交互项中，只有一个 ( TIME _3 # CHILDAGE ) 统计显著 
(p = 0. 024) 。对于该交互项，系数 0. 227表明 Time3 时 CHILDAGE 的系数比 
Timel 时要高 0. 227。当然，在检验多达18个的情况下，即使没有任何实质性 
依据，我们也可以大胆地赌一把，认为其中至少会有一个显著。不过，在检验 18 
个交互项都等于 0 的同时检验 (simultaneous test) 中， p 值等于 0. 15 。 ① 

与随机效应模型的比较 

固定效应模型的一个非常流行的替代者是随机效应或混合模型 （mixed 
model ) 。这一模型是在我们用于固定效应模型的同一方程上发展出 来的： 

yu — ixt +卢*3^ + yz t - + a , + e r / [2_ 9] 

最关键的区别在于，现在我们 不把％ 当作一套固定数字(等价于把&看作 
随机的，但与〜之间存在所有可能的相关)，而假定 m 是一套有着特定概率分布 
的随机变量。例如，通常假定每个&都服从0均值且等方差的分布，并且与方 
程右边的其他所有变量都保持独立。 

现在有很多软件可以用来估计随机效应模型。 SAS 可以通过 MIXED 程序 
进行。 Stata 中的 xtreg 命令在默认情况就能进行随机效应模型的 GLS 估计。 
表 2. 7 给出了 xtreg 命令产生的包含非时变变量及不含非时变变量的随机效应 
模型的估计结果。 

能够纳入非时变变量是随机效应模型与固定效应模型最显著的差别。不 
过，这里我们发现纳入此种变量并不会使时变预测变量的系数发生太大改变， 
不管是自信水平还是贫困状况。 

与表 2 . 5 中的常规 OLS 回归估计相同而与固定效应估计不同的是，随机效 
应估计中这两个变量的系数都是高度显著的。随机效应模型与常规 OLS 方法 

①这说明整体而言， 18 个交互项并没有显著的解释效果，纳人交互项后模型没有显著的改 
善。——译者注 
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相似，并不足为怪。如果 a 与其他所有变量都不相关这一随机效应假定正确的 
话，这两种方法都能产生对方程 2. 9的系数的一致估计(因而也是近似无偏的估 
计)。但如果这一假定并不正确，那这两种方法的估计都将有偏。 


表 2. 7随机效应模型的 GLS 估计 



系数 

标准误 

P 

系数 

标准误 

P 

SELF 

-0. 062 

0. 009 

0. 00 

— 0_ 060 

0.009 

0. 00 

POV 

0. 247 

0, 080 

0. 00 

0. 296 

0,077 

0. 00 

TIME_2 

0. 047 

0. 059 

0,42 

0. 047 

0. 059 

0. 42 

TIME_3 

0.216 

0. 059 

0. 00 

0. 216 

0. 059 

0.00 

BLACK 

0.227 

0.126 

0. 07 




HISPANIC 

-0. 218 

0. 138 

0. 11 




CHILDAGE 

0. 088 

0,091 

0. 33 




MARRIED 

-0. 049 

0.126 

0. 70 




GENDER 

— 0. 483 

0.106 

0. 00 




MOMAGE 

-0. 022 

0.025 

0. 39 




MOMWORK 

0. 261 

0.115 

0. 02 





为何 POV 变量在随机效应模型中高度显著而在固定效应模型中非常不显 
著呢？如早前已经解释过的一样，一旦一个系数在随机效应模型中显著而在固 
定效应模型中不显著，首先要做的就是比较两者的标准误。因为固定效应模型 
的标准误通常要比随机效应模型的标准误大得多，仅此一点，就能解释它的 P 
值为什么会较大。当然，在这里，固定效应模型中 POV 变量的标准误虽然稍大 
(0. 09比 0. 08) ，但并不足以解释上述显著水平上的差异。即使我们将 0. 09替 
换为 0. 08,固定效应模型中 POV 的系数仍然不会显著。显然，主要差异在于两 
个系数的大小不同，在固定效应模型中是 0. 11，在随机效应模型中是 0. 25( 或 
(X 30,取决于非时变变量是否得到控制）。对这一差异最可能的解释是，存在着 
某些不可观测的变量能够“解释”我们（在随机效应模型中）看到的贫困状况与 
反社会行为之间的相关。一旦这些不可观测的变量通过固定效应模型被控制 
了，上述两个变量之间的相关也就消失了。 





26 


富鳜 B 归分析 


这里的关键在于，与一般流行的观念不同，估计一个随机效应模型并不能 
真正“控制”未被观测的异质性。这是因为，常规随机效应模型假定观测变量与 
未被观测的变量之间不存在相关。相反，固定效应模型允许非时变自变量与时 
变自变 量之间的任何相关。不过，这样做的代价是，当这些相关确实为零时，固 
定效应模型将失去一些效率。 

已有的研究显示，随机效应模型实际上只是固定效应模型的一个特例 
( Mundlak , 1978)。也就是说，如果以方程 2. 9的常规随机效应模型作为开始， 
然后允许&与工，变量之间的所有可能相关，你将得到固定效应模型的等价物。 
通常而言，一旦要在两个相互嵌套的模型(其中一个是另一个加上某些限制条 
件的结果)之间做出选择，都会存在偏差与效率之间的得失权衡问题。较简单 
的模型(随机效应模型)可以得到更有效率的估计，但如果加在模型上的限制条 
件是错误的，那这些估计就可能是有偏的。较为复杂的模型（固定效应模型)不 
那么容易产生偏差，但代价是抽样变异性 (sampling variability ) 会相对较大。 

在此得失权衡面前，如果有一种统计检验能对随机效应模型与固定效应模 
型进行比较，那将大有用处。此种检验能够帮助我们判定随机效应方法所带来 
的偏差是小到足以忽略的程度，还是大到我们不得不选择限制条件更少的固定 
效应模型。这些检验中，最有名的是 Hausman 检验(1978)，该检验的虚无假设 
是随机效应系数与固定效应系数相同。 [7] 这种检验在很多统计软件中都能找 
到。对于手头这个例子，最直接的检验是对表 2. 5中的固定效应系数与表 2. 7 
左边部分的随机效应系数进行比较，后者控制了几个非时变变量。我在 Stata 
中用 xtreg 命令的这一检验得到的 p 值等于 0. 04,这一证据并不支持随机效应 
模型，而比较倾向于固定效应模型。在下一节，我将介绍另外一种效果比目前 
Stata 中采用的 Hausman 检验更好的检验 方法。 

混合（模型）法 （A Hybrid Method ) 

现在来考虑如何将固定效应模型和随机效应模型的某些优点综合起来。 
前面我们已经看到，估计固定效应模型的方法之一是将所有变量都表迖成与个 
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体均值的离差，然后对这些离均差变量运用 OLS 回归。在混合法中，时变 x 变 
量再次被处理成为与个体均值的离差，但是反应变量: v 没有。而且与前面的固 
定效应方法不同，现在我们将非时变变量 Z 也纳入到模型里。此外，我们还将 
表示每个时变变量个体内均值的变量(同样是非时变变量)也纳入模型。最后， 
我们不釆用 OLS 回归，而是估计一个随机效应模型，以保证标准误能够反映同 
一个体的多个观测记录之间的相依性 。 M 

表2.8给出了针对1^¥数据的分析结果。 DSELF 和 DPOV 是离均差变 
量。 MSELF 和 MPOV 是个体内均值。首先应该注意的是，表中 DSELF , 
DPOV 以及两个时间虚拟变量的回归系数和标准误与我们在表 2. 5的固定效 
应方法中看到的完全一样。因此，我们又有了一种产生固定效应估计的方 
法 J 9 ] 实际上，对于 DSELF 和 DPOV 来说，不管方程中放进什么非时变变量， 
即使我们将 MSELF 和 MPOV 以及其他非时变变量都删除，时变变量的系数和 
标准误都将保持不变。当然，从这一混合方法中我们得到的是对非时变变量效 
果的估计,而这是通过常规的固定效应方法所不能得到的。 

表 2. 8混合法估计结果 



标准误 



DSELF 

— 0, 055 

0. 010 

0. 00 

DPOV 

0.112 

0. 093 

0. 22 

MSELF 

-0. 090 

0. 022 

0. 00 

MPOV 

0.616 

0. 157 

0. 00 

BLACK 

0.111 

0. 132 

0. 40 

HISPANIC 

一 0. 280 

0.139 

0. 04 

CHILDAGE 

0. 086 

0.091 

0. 35 

MARRIED 

一 0. 128 

0. 128 

0* 32 

GENDER 

— 0_ 508 

0. 107 

0. 00 

MOMAGE 

—0. 011 

0. 025 

0. 65 

MOMWORK 

0. 164 

0. 119 

0. 17 

TIME 一 2 

0. 044 

0. 059 

0. 45 

TIME.3 

0.211 

0. 059 

0. 00 





在多层模型文献中 （Bryk & Raudenbusch , 1992； Glodstein ， 1987； Kreft 
De Leeuw , 1995) ，将各时变变量减去个体内均值的做法叫作按组均值对中 
(group mean centering ) 0 尽管大家都知道对中后将产生非常不同的结果，但这 
类文献仍没有将其与固定效应模型联系起来，也没有认识到按组均值对中将控 
制所有非时变预测变量。 

均值变量 MSELF 和 MPOV 的估计系数本身并不特别具有启发性。但将 
这些变量纳人模型很重要，原因 有二: 第一，它们可以帮助我们得到更好的有关 
其他非时变变量效果的估计。将 MSELF 和 MPOV 排除，意味着我们没有完全 
控制这些变量。第二，将它们的系数与离均差变量 DSELF 和 DPOV 的系数进 
行比较，能够让我们对事情有更深的了解。如果随机效应模型的假定是正确的 
(即&项与 x 变量无关)，那么每个变量对应的离均差变量与均值变量的系数 
应该一样（除去抽样变异后）。对于 DSELF 与 MSELF 来说,这确实相差不 
远。但 MPOV 的系数比 DPOV 的系数要大得多。实际上，在我们估计常规随 
机效应模型时，得到的 SELF 和 POV 的系数就是这些“(个体）内”系数和“(个 
体)间”系数的加权平均数。这进一步意味着我们可以通过检验这两对系数 
之间的相等性来检验随机效应模型与固定效应模型的差异(这就是可以替代 
前面讨论过的 Hausman 检验的另一检验）。这在 Stata 中做起来非常容易(使 
用的是 Wald 检验)，所得 p 值为 0. 007,可算是反对随机效应模型的鲜明证据 
( clear-cut evidence )。 

混合法的另一诱人之处,在于它可以实现在常规的固定效应估计方法中不 
易实现的多种有趣的拓展。到目前为止，我们讨论的随机效应模型都还只是随 
机截距模型。我们还有可能估计随机斜率模型。例如,我们不再假定 DSELF 
的系数对于每个人都一样，而假定其为一个随机变量，然后估计其均值与标准 
差。此种模型通过 SAS 中的 MIXED 子程序或者 Stata 中的 xtmixed 命令很容 
易就能搞定。后一命令产生的 DSELF 系数的平均值的估计值为一0.005。该 
系数对应的标准差估计值为 0. 070,是其标准误 0. 024的两倍以上，这强烈地表 
明: DSELF 的影响在不同个体上存在差异。 

通过使用混合法，还可以估计含有更复杂的误差结构的模型，例如，三层结 
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构或自回归结构 （thredevel structure or autoregressive structure ) ，而不仅仅是 
常规固定效应模型所隐含的简单结构。关于此类模型的更多信息，可以参看辛 
格和威利特的著作 (Singer and Willett , 2003)。 


总结 


可以看到，共有几种等价的方法用来估计定量反应变量线性固定效应 
模型： 


(1) 如果每个个体只被观察了两期，先对所有时变预测变量创建差分 
值。然后，对反应变量的差分值对预测变量的差分值做 OLS 回归。 

(2) 不管观察了多少个时期，转换数据结构以使每个个体在每一观察 
期都有一条记录。然后进行 OLS 回归，回归时纳入代表每个个体的虚拟变 
量组(缺省其中的一个）。 

(3) 对于方法 2 中的数据结构，将所有时变变量转变为相对于个体内 
均值的离差值。然后对这些离差值做 OLS 回归（并修正标准误统计检验及 
p 值）。通过 Stata 中的 xtreg 命令可以很方便地完成。 

(4) 对于方法 2 中的数据结构，只将自变量转变为相对于个体内均值 
的离差值。然后估计一个随机效应模型，模型中的自变量中同时包括（各 
时变变量的个体内）均值以及相对这些均值的离差值。 


在这些方法中，第4个最为灵活。它具有其他一个或多个方法所不具备的 
如下 能力： 

纳入在个体内不存在变异的预测变量； 

将固定效应与随机效应假定进行检验； 

为存在个体内变异的自变量提供随机系数估计； 

容许更为宽松的误差结构。 



无论使用何种运算方法，固定效应模型都能高效地控制所有非时变预测变 
量，不管是得到测量的还是没有被測量的。这是其与随机效应模型相比的主要 
吸引力所在。不过，固定效应模型的一个重要假定在于，非时变预测变量在各 
个时期必须有着相同的影响。那些作用效果在各个时期并不恒定的变量必须 
被明确地纳人模型(才能得到控制）。另外，当然，固定效应方法对未被测量的 
时变变量没有任何控制。 



第 3 章 I 固定效应 Logistic 回归 


在这一章，我们将了解到如何将上一章的固定效应方法一般化，以适用于 
分类反应变量。为了探索这些方法,我们将用一个同样来自全美青少年长期跟 
踪调查 ( NLSY ) 的数据集。这一数据集有1151名自1979年开始每年都被访问 
一次、连续访问了 5年的青少年女孩。反应变量 P 0 V 1- P 0 V 5 是二分变量 :在这 
5年期间的每一年，判断女孩所在家庭根据美国联邦的标准是否处于贫困状态, 
贫困则编码为1，非贫困则编码为0。我们的自变量 如下： 

AGE 第一次被访时的年龄 

BLACK 如果受访者为黑人则编码为 1， 否则为 0 

MOTHER 如果受访者目前至少有一个孩子则编码为 1， 否则为 0 

SPOUSE 如果受访者目前与配偶生活在一起则编码为 1， 否则为 0 

SCHOOL 如果受访者目前为在校注册学生则编码为 1， 否则为 0 

HOURS 调查所在周已工作的小时数 


开始两个变量是非时变变量，而后面四个变量在每次调查时都可以不同。 

现在我们处理的已经不是线性模型了，而是 Logistic 回归模型，与方程 2. 1 
相似，我们的基础模 型是： 

log ^ ) = A + + + a l9 ’ = 1，2, …丁 [3. 1] 

其中，九是响应变量等于 1 的概率。如以前一样 ，〜是 时变预测变量向量， z , 是 
非时变预测变量向量，&表示所有未被观测的恒定变量的综合影响。在这一 
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章，我们将把 A 看作是一套固定的常量,每个个体都有一个。不过，这相当于假 
定&是随机的且对〜与: Q 之间的相关不做任何限制。 


两期数据（固定效应分析) 


在第2章中，我们看到两期数据情况下，固定效应线性模型可以通过计算所 
有变量的差分值，然后运用一般最小二乘回归的方式进行估计。对于 Logistic 
回归，类似的做法同样是可能的，但有一些重要的区别。 

表 3.1 第1年与第5年贫困状况的交互分类情况 


第 5 年的贫困状况 

第 1 年的贫困状况 - 

0 1 合计 


0 

516 

234 

750 

1 

211 

190 

401 

合计 

727 

424 

1 151 


下面我们对 NLSY 数据做一个固定效应 Logistic 回归，先忽略第2、3、4 
年，只关注年份1和年份5。尽管这两个年份间贫困的边缘分布改变得很小，但 
仍然有234个女孩的家庭陷入贫困状态，同时有211个女孩脱离了贫困。 

为了进行固定效应 Logistic 回归，我们先将 706 个(贫困状况)在 5 年内未 
发生变化的女孩排除在外。这是因为固定效应模型只使用个体内变异，对于这 
些女孩而言，其响应变量并不存在个体内的变化。因此，我们只剩下 445 个贫困 
状况发生过改变的女孩。在这一缩减后的样本上，我们令 A 表示 POV5 = 1 的 
概率，等于一个女孩从状态0转变成状态1，而不是从1转变为0的概率。接下 
来我们再用常规的最大似然法估计这一 模型： 

log( 1 _ ^夕） = (//2 — /ii) + pixiz —XiO [3.2] 

也就是说，我们将 POV 5 作为因变量，将时变预测变量的差分值作为自变 
量，作 Logistic 回归。根据下一节的解释，这实际上是条件最大似然估计的一种 
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形式。与线性模型中一样，々和 I 都被从方程中消除。 

表 3. 2呈现了 3个回归模型的估计结果，是用 Stata 中的 logit 命令估计得 
到的。模型1只包括时变预测变量的差分值。可以看到成为母亲将增加陷入贫 
困的风险，而与配偶居住及工作的小时数越多将降低风险。请再次记住，这些 
估计都已经控制了所有非时变变 i 。 将是否为母亲这一变量的系数 (0. 730) 取 
指数，我们得到 2. 08。这告诉我 们:一 个女孩一旦有了第一个孩子，其陷入贫困 
的风险将会翻倍。截距 0. 539可以被解释为一个在所有时变自变量上都未发生 
变动的女孩的贫困对数发生比从年份1到年份5的变化。取指数后，我们得到 
发生比为 1. 71 也就是说，从年份1到年份5,提高了 71%。 


表 3. 2两期数据的差分值 Logistic 回归 



模型 1 

模型 2 

模型 3 

系数 

标准误 

系数 

标准误 

系数 

标准误 

截距 

0. 539 w 

0. 162 

4. 899 M 

1.644 

3. 052 

L 826 

DMOTHER 

0. 730** 

0.250 

0. 744** 

0,254 

0. 909** 

0.270 

DSPOUSE 

-h 002** 

0.283 

一 1. 032** 

0. 292 

-1. 022 料 

0.301 

DSCHOOL 

0. 343 

0.212 

0. 339 

0.218 

0. 639* 

0. 251 

DHOURS 

—0. 0339 h 

0. 0061 

—0. 0339 h 

0. 0062 

-0. 0339 _ 

0. 0068 

BLACK 



-0. 526* 

0.216 

— 0. 662“ 

0. 226 

AGE 



一 0. 258* 

0.103 

— 0. 196 

0-111 

MOTHER1 





0.457 

0. 460 

SPOUSE1 





0. 442 

0.726 

SCHOOL1 





L 184 

0.471 

H0URS1 





一 0, 0024 

0. 0128 


注： *0.01 < 户 < 0,5 *X0.01 o 


模型2加人了两个非时变变量 BLACK 和 AGE ， 两者都有着显著的负向作 
用。这些变量的系数可以被解释为与时间的交互作用。因此对这两个变量来 
说，它们对于陷入贫困的风险的影响(从量上说)在年份5时要比在年份1时小。 


或者，这些系数也可以解释为历时变化的速率在不同子群体中是如何的不同。 
更具体的，对于一个从年份1到年份5期间时变自变量都未发生变化的女孩来 
说，这5年期间陷入贫困的对数发生比的变化可以表 达为： 
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4. 899 — 0. 526 X BLACK — 0. 258 X AGE ① 

因此，对于一个 14 岁的在各项其他自变量上都未发生变化的非黑人女孩来 
说，其陷入贫困的对数发生比的预测改变量为 1. 29。 等价地说，其陷入贫困的 
发生比将变为原来的 exp ( l . 29) = 3. 63 倍。而黑人或在年份 1 时年龄更大的女 
孩贫困的增长率要更低。 

模型 3 增加了在年份 1 时测量的时变变量。如在第二章一样，这些变量的 
回归系数可以被解释为每个变量从年份 1 到年份 5 时作用的变化量，也就是说， 
与时间的交互作用。这些变量中只有一个， SCHOOL 1， 统计显著。这样，我们 
可以说，从年份 1 到年份 5 期间，是否为在校学生对女孩陷入贫困的对数发生比 
的影响增加了 1. 184。 而 DSCHOOL 的系数 0 . 639 是在校学生身份在年份 5 时 
的估计作用。由此看来，在校学生身份在年份1时为负作用 (0. 639 — 1. 184), 
而在年份 5 时为正作用。 

总的来说，两期数据 Logistic 模型与第二章中两期数据的线性回归是非常 
相似的。最大的不同 在于: Logistic 方法要求将因变量上未发生变动的个体排 
除在样本之外。对于因变量，我这里使用的是时期2的反应变量,这看起来与线 
性固定效应模型时有所不同。但是如果我不这么用，而用时期2的取值减去时 
期1的取值，那我得到的因变量取值将会是1和 一 1而不是1和0,但这二者实 
际上是同一个东西。 [11] 

三期及多期数据（固定效应分析） 

如何才能将这种方法扩展到可以使用全部 5 年而不仅仅是第 1 年和第 5 年 
数据提供的信息呢？在第2章，我们是通过如下方式来实现 的:为 每个个体在每 
一个被测量的时期创建一条单独记录,将这些记录合成一个数据集，然后估计 
一个含有与各个体对应的虚拟变量的线性回归。另外一种方法同样是使用单 

①原书中为 4. 899—0. 526 XBLACK -2. 58 X AGE , 但是根据表 3. 2的输出结果， AGE 的系数 
应 该为一 0. 258。——译者注 
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一个体对应多条记录的数据形式，但避免使用虚拟变量，而是将各个变量表达 
为相对于个体内均值的离差的形式。尽管这两种方法会产生同样的结果，但第 
一种方法确切地讲是无条件最大似然法，而后者为条件最大似然法。 

条件最大似然法和无条件最大似然法对二分结果变量的 Logistic 回归都是 
可用的，但在这里两者并不产生相同的结果。与在线性情况下一样，无条件最 
大似然法同样是通过为每个个体创建多条记录，然后估计一个含有标识各个体 
的虚拟变量的常规 Logistic 回归来实现的。不幸的是，这种方法产生的系数估 
计是有偏的 ( Hsiao , 1986)。事实上，在两期观察情况下，系数估计值恰好是其 
本来取值的两倍 ( Abrevaya ， 1997； Hsiao ， 1986)。导致此种偏差的原因就是所 
谓的伴随性参数问题 （ hcf 山 w / a / parameters problem ) { Y ^ s \ h {\ e\sch ^ Sprott , 
1970; Lancaster ，2000)。 也就是说，样本规模一旦增加，参数(尤其是与各个体 
对应的虚拟变量的系数）的数量也会直接增加，从而违背了最大似然估计的渐 
近理论的重要前提之一。 

解决方案就是采用条件似然法，这一方法使 a 参数被“条件出 （conditions 
out )” 似然方程① ( Chamberlain , 1980)。它是通过将似然方程限定在每个个体被 
雜的事件总数一定的条件上来实现的。从效果上讲，每个人对似然函数的贡献，就 
是对如下问题的回 答:如 果一个女孩在5年内有两年处于贫困状态，那么这一事件发 
生在，比方说年份2和年份 4( 当实际发生时)，而非另外年份9对可能的年份组合之 
一的概率是 多大？ 这些条件概率不包括&参数。此种条件似然法只适用于二分类 
反应变量的 Logistic 回归，不能用于其他“连接”函数，如 Probit 或互补双对数函数。 

很多统计软件都能对 Logistic 回归的此种条件的似然值进行最大化估 
计。在 Stata 中，通过 xtlogit 或者 clogit 命令都可以实现。这些程序所要求的 
数据形式与第2章中讨论多期数据与 xtreg 命令时描述的一样。每一个体在 
每个被观察的时期都有一条记录，来自同一个体的所有记录都有同样的 ID 。 
非时变变量的取值在同一个体的不同记录中是一样的。如果将此种方法应用 
于两期数据，其产生的结果将与上面描述的差分法相同。对于这个5年份示 


①实际上就是在方程中被抵消掉。——译者注 
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例数据，表 3. 3 给出了工作数据集中的前 15 条观察记录。这些记录来自3个 
女孩，每个人被观察了 5年。 


表 3. 3少女贫困问題数据集的前15个观察记录 


观测值 

ID 

YEAR 

POV 

MOTHER 

SPOUSE SCHOOL HOURS BLACK 

AGE 

1 

22 

1 

1 

0 

0 

1 

21 

0 

16.00 

2 

22 

2 

0 

0 

0 

1 

15 

0 

16. 00 

3 

22 

3 

0 

0 

0 

1 

3 

0 

16. 00 

4 

22 

4 

0 

0 

0 

1 

0 

0 

16. 00 

5 

22 

5 

0 

0 

0 

1 

0 

0 

16. 00 

6 

75 

1 

0 

0 

0 

1 

8 

0 

17. 00 

7 

75 

2 

0 

0 

0 

1 

0 

0 

17. 00 

8 

75 

3 

0 

0 

0 

1 

0 

0 

17. 00 

9 

75 

4 

0 

0 

0 

1 

4 

0 

17. 00 

10 

75 

5 

1 

0 

0 

1 

0 

0 

17. 00 

11 

92 

1 

0 

0 

0 

1 

30 

0 

16. 00 

12 

92 

2 

0 

0 

0 

1 

27 

0 

16. 00 

13 

92 

3 

0 

0 

0 

1 

24 

0 

16. 00 

14 

92 

4 

1 

1 

0 

0 

31 

0 

16. 00 

15 

92 

5 

1 

1 

0 

0 

0 

0 

16. 00 


Stata 的 xtlogit 命令对固定样本跟踪数据拟合 Logistic 回归可以采用三种 
不同的方法 :固定 效应法(条件似然），随机效应法及广义估计方程法 ( general ¬ 
ized estimating equation ) 。表3, 4给出了对该少女贫困数据应用全部三种方法 
得到的结果。前面两列呈现的是固定效应 logit 模型条件似然估计的结果。与 
两期数据时的情况一样，我们看到成为母亲及在校生身份与较高的贫困风险相 
关，而与配偶同住及工作时间越长则与较低的风险联系在一起。 

如何解释这些效应呢？拿 SPOUSE 的系数 一0. 748来说，取幂后我们得到 
的发生比为 0. 47。也就是说，如果一个女孩从没有与丈夫居住的状态变为与丈 
夫居住，那么她陷入贫困的几率要(在原来的基础上)乘以 0. 47。实际上就是， 
结婚将使少女陷入贫困的几率减少一半。而 HOURS 的系数 一0. 0196取幂之 
后得到发生比等于 0. 98。这是说，每个星期多工作一小时将使陷人贫困的几率 
缩小2%。几个 YEAR 系数都是与年份1的对比，它们都是正的并且都在统计 
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上显著。注意，表中没有报告截距项，因为截距项已经“被条件出 （is conditioned 
mit )” 似然函数。 

表格中接下来的两列呈现的是釆用广义估计方程法 ( GEE ) 估计 logit 模型 
得到的结果，它通过迭代广义最小二乘法 (iterated generalized linear squares ) 修 
正了观察记录之间的相依问题。尽管结果的模式与条件似然分析的相似，但存 
在三个重要的差别。第一， SCHOOL 的系数从显著的正值变为不显著的负值。 
第二， GEE 分析中 MOTHER 和 SPOUSE 变量的系数明显要大得多，而几个年 
份变量的系数则都要小一些。第三，标准误都要更小。 


表 3. 4的最后两列给出的是随机效应模型的最大似然估计。这一模型同样 
可以用方程 3. 1来表示，只是现在^被假定为一套随机变量，每一个都服从均 
值为0且方差恒定的分布，并且(最重要的是) 与&保 持相互独立。随机效应系 
数估计结果与 GEE 估计结果相似。所有的标准误都要比 GEE 估计的略大，但 
比条件似然分析的要小，因为条件似然法没有使用任何个体间的变异信息。事 
实上，条件似然法自动剔除了 324个贫困状况在5年期间没有发生任何变化的 
少女(28%)。和两期数据时一样，如果一个人根本没有发生历时变化，那自变 
量也就没有什么可以解释的。 


表 3. 4 Logit 模型的条件似然估计及其他估计 



条件似然估计 

GEE a 

随机效应 

系数 

标准误 

系数 

标准误 

系数 

标准误 

MOTHER 

0. 582 h 

0. 160 

0. 85CT" 

0. 092 

1. 077 料 

0.119 

SPOUSE 

-0. 748** 

0.175 

— 0. 930^ 

0. 121 

— 1.238** 

0. 152 

SCHOOL 

0_ 272 * 

0. 113 

—0. 045 

0. 077 

一 0. 064 

0. 098 

HOURS 

-0.0196^ 

0. 0032 

0, 0209** 

0. 0023 

— 0 . 02 『 

0. 0029 

YEAR2 

0. 332“ 

0* 102 

0. 223，* 

0. 073 

0. 287” 

0. 100 

YEAR3 

0. 335** 

0. 108 

0. 171* 

0. 080 

0. 226. 

0. 104 

YEAR4 

0. 433 料 

0. 116 

0.196" 

0. 084 

0. 256* 

0. 108 

YEARS 

0. 402 

0. 127 

0. 122 

0. 093 

0. 172 

0. 115 

截距 



-0. 543 ~ 

0. 097 

一 0, 681** 

0. 126 


注 : a. 同时设定了非结构化的相关矩阵，以及基于模型的标准误。 
# 0.01 <^<0.05, #/><0.01 。 
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那么表 3. 4的三套结果中哪一套最好呢？三者最大的区别在于， GEE 和随 
机效应法都没有对未被观测的变量进行任何控制。相反，固定效应模型(条件 
似然法)控制了所有恒定变量，将每个女孩作为其自身的控制因素。而且其提 
供的标准误估计也是修正了相依问题的正确估计。不好的方 面是: 这些标准误 
要比随机效应模型及 GEE 估计的标准误大，因为数据集中有大量的信息没有 
被使用。权衡之后，对于这个例子，我更倾向于固定效应估计结果，因为它们受 
被忽略变量的影响而产生偏差的机会要小得多。不过，在个体内变异相对于个 
体间变异太小的情况下，固定效应系数的标准误可能会太大而无法容忍。 

还有一点值得提醒的是，条件似然和随机效应估计都是“具体单位的 
(subject specific)” 估计，而 GEE 估计只是“总体平均的 （population averaged)” 
估计。那么二者的差别是什么呢？ 一个具体单位的系数能够告诉我们，如果一 
个具体个体的预测变量增加一个单位，那该个体会发生什么。而一个总体平均 
的系数只能告诉我们，如果每个人的预测变量都增加一个单位，那么整个总体 
会发生什么。如果模型是线性的，两种系数之间不存在差别。但对于 Logistic 
回归模型,当然对于其他很多非线性模型也一样，具体单位系数一般要大于总 
体平均系数。 

哪一个更好呢？答案取决于你的目的。如果你是一个医生，要估计某种他 
汀类药物能够在多大程度上降低你的病人罹患心脏病的风险，那么具体单位系 
数是很明显的选择。相反，如果你是一个政府卫生部门的官员，想知道如果风 
险人群中的每一个人都服用这种他汀类药物，因心脏病而死亡的人数将会有什 
么变化，那你最好使用总体平均系数。 

当然，即使是在后一种公共卫生应用中，也有理由认为具体单位系数更具 
有实质性意义。假定真实模型是如方程 3. 1表达的基本随机效应 Logistic 模 
型。其回归系数向量和 y 二者都是具体单位的。如果我们用 xtlogit 命令通 
过 GEE 办法估计这一模型，我们将得到总体平均系数，和，。这两套系数的 
差异程度取决于山的方差。特别是，如果 var( ai ) = 0,那么召二，， 

方差增加时，^和，的值将向0衰退。当 a, 服从正态分布时，两者之间的近似 
关 系为： 
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VO . 346 var ( a ； )+1 

因此总体均值系数取决于 Logistic 回归中未被观察的异质性的程度。对于 
上面的少女贫困问题数据，的方差估计值为 1. 454。比较 GEE 系数估计值及 
随机效应系数估计值，我们发现上述关系确实近似地成立。 


与时间的交互作用 


条件似然法的另一个不足之处是它不能对非时变变量的回归系数进行估 
计(尽管这些变量都被潜在地控制住了）。不过，时变变量与非时变变量之间的 
交互项还是可以被放进模型中。表 3. 5中，模型1放人了一个变量，它是 
MOTHER 与 BLACK 的乘积，其系数在 0. 05水平上显著。注意，与绝大多数 
含有交互项的模型不一样，这里根本不用（事实上，根本就不能）纳入 BLACK 
的主效应。交互项解释起来和线性模型中的一样。 MOTHER 的系数 0.982 
代表着当 BLACK = 0时，也就是说在非黑人少女中， MOTHER 的作用。取 
幂之后得到的对数发生比为 2. 67。因此，对于非黑人少女来说，成为母亲将 
使陷人贫困的发生比在原来的基础上乘以 2. 67。要得到成为母亲在黑人女 
孩中的影响，把主效应加上交互项系数， 0. 982 —0. 599 = 0. 383,就能得到一 
个低得多的发生比1.46。 

在模型2中，我们可以看到 YEAR 与两个时变变量 （ SCHOOL 和 
HOURS ) 还有两个非时变变量 ( BLACK 和 AGE ) 之间的交互作用显著。在这 
一模型中， YEAR 被当做一个定量变量而非定类变量，从而使模型及其解释 
得到简化 [12] 。 YEAR 的编码取值为0到 4( 而不是1到 5) ，这样 SCHOOL 
和 HOURS 的主效应可以被解释为 YEAR = 0时这些变量的作用，也就说 
在第1个观察年份的作用。同在交互项中的 HOURS 和 AGE 则被表述为 
与它们各自对应均值的离差，这样可以使 YEAR 的主效应的解释变得 
容易。 
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表 3. 5带交互项的条件似然估计 

模型 1 模型 2 



系数 

标准误 

系数 

标准误 

MOTHER 

0. 9 『 

0. 253 

0. 687 h 

0.163 

SPOUSE 

—0. 783"" 

0,178 

- 0 . 

0.178 

SCHOOL 

0. 267* 

0. 113 

一 0.311 

0.190 

HOURS 

—0. 0192** 

0. 0032 

-0. 0060 

0. 0063 

YEAR2 

0. 332** 

0.102 



YEAR3 

0. 334"" 

0. 108 



YEAR4 

0. 430” 

0. 117 



YEARS 

0. 400** 

0. 128 



MOTHER* BLACK 

—0, 599* 

0. 290 



YEAR 



0. 021 

0. 059 

YEAR* SCHOOL 



0. 251** 

0_ 063 

YEAR* HOURS 



一 a 0055* 

0. 0021 

YEAR* BLACK 



—0,181** 

0.048 

YEAIT AGE 



一 0. 056* 

0.023 


注： *0. 01</><0. 05, **/><0.01 。 

对这些交互项的解释，时变变量与非时变变量之间有所不同。对于时变预 
测变量来说，通常最好是从各个自变量的作用是如何随时间变化而变化的角度 
来进行考虑。例如， SCHOOL 的作用可以表述为一个线性函数：一 0.311 + 
( X 251 XYEAR 。 因此，第1年时，它的作用是负的并且统计检验不显著。年份每 
增加1，它的影响就增加 0. 251，这样到第5年时它的作用就达到了 0. 693( 用发 
生比来说就是 2) 。对于 HOURS 变量，其作用是 一 0. 0060 — 0. 0055 X YEAR 。 
这样 HOURS 的作用最开始时是负的，并且随着年头的增加会持续地变得更 
负，到第5年时变为一0.028。这相当于说每多工作1小时将使陷入贫困的发 
生比降低 2. 8%。 

对于非时变自变量，交互项最好的解释方式是查看 YEAR 的作用是如何随 
着这些变量的变化而变化的。根据这些变量的编码方式， YEAR 的主效应 
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(0. 021) 代表 YEAR 在那些既不是黑人也非在校生，并且年龄为平均开始年龄 
15. 65岁，工作时间为平均工作时间 8. 67小时的少女中的作用。而在黑人少 
女中(其他特征都一样），年份的作用是主效应加上交互作用 （0.021 — 1.81 = 
一 0. 16)。这相当于，每增加一年头，少女陷人贫困的发生比就减少15%。我们 
也可以将 YEAR 的作用表达为第1个观察年份时年龄 AGE 的线性 函数: 
0. 021—0. 056 X (AGE — 15. 65)。如此，对14岁开始参与调查的此类少女来说， 
YEAR 的作用为 0. 1134( 大概是年份每增加1年，陷入贫困的发生比就增加 
12%) ; 而对于17岁的此类少女，该作用为 一0. 0546( 从发生比上讲，大约每年 
下降5%)。[ 13 ] 

混合（模型）法 


在第2章中我们将固定效应法和随机效应法统一到一个模型中。这是通过 
把时变自变量分解成个体内部分与个体间部分，然后用这两个部分一起拟合随 
机效应模型来实现的。个体间部分就是每个变量的个体均值 ( person-specific 
mean , 即个体内均值)。个体内部分即(个体各观察值)与个体均值的离差。 

现在我们将这种方法扩展到 Logistic 回归 （Neuhaus Kalbfleisch ， 
1998)。与在线性回归中一样，这种模型的魅力在于我们能够 :（ a ) 在模型中纳入 
非时变变量 ,( b ) 进行比较固定效应和随机效应的检验，以及 ( c ) 拟合更多类型的 
模型。 （ c ) 的一个例子是 :与条 件似然法不同，混合法能够使用其他的连接函数， 
如 probit 和互补双对数函数。 

再一次使用 Stata 中的 xtlogit 命令，我对少女贫困问题这一数据拟合了随 
机效应模型，结果呈现在表 3. 6中。所有以 M 开头的变量名都是指个体均值。 
所有以 D 开头的变量名对应的都是相对于上述个体均值的离差。离差变量的 
回归系数从功能上讲与固定效应系数等价，因为估计时只利用了个体内的变异 
信息，从而控制了所有恒定变量。在第2章的线性混合模型中，离差变量的系数 
与最小二乘虚拟变量法产生的完全一样。但在这里，离差变量的系数与表 3. 4 
中的条件似然法系数并不相等，尽管它们确实很相近。 
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那些均值变量的系数本身并不是很有意思，引人注意的是它们(在量上)比对应 
的离差变量大 多少。 一 f 常规的随机效应模型(没有离析个体内与个体间成分时)内 
在地假定离差系数与均值系数 相等。 在混合模型中非常容易就能对这一^定进行检 
验，通过直接检验各对系数之间是否相等即可。表 3. 7清楚地表明有必要反对这一 
假设，这意味着固定效应模型在这里要比随机效应模型更好。在表 3. 7中，最重要 
的检验是联合检验，它检验的是四个离差系数同时都与对应的均值系数相等。 

表 3. 7对均值系数与离差系数是否相等的检验 



卡方值 (Chi-square) 

P 

MOTHER 

4. 16 

0. 041 

SPOUSE 

19.31 

0. 000 

SCHOOL 

49, 90 

0. 000 

HOURS 

15. 70 

0. 000 

联合检验 (4 自由度） 

79. 10 

0. 000 


混合方法的另一个优点，在于它能够得到非时变自变量的系数估计。例 
如，表 3. 6中，黑人有显著更高的贫困风险，而第一次访问时年龄更大的女孩的 
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贫困风险显著地低一些。不过，记住下面这点很重 要：不 像离差变量的系数， 
BLACK 和 AGE 的系数并没有控制住未被观测的自变量。 

在第2章中，我们见识了混合线性模型能够扩展成为允许时变自变量带上 
随机系数的模型。这在混合 logit 模型中也是可能的，尽管估计此类模型在计算 
上非常精深。在 Stata 中，带有随机系数的 logit 模型需要使用一个不同的命 
令: xtmebgit (在 StatalO 中首先引进)。对这一少女贫困问题的例子，我估计了 
一个允许 DMOTHER 带有随机系数的混合模型。这一系数的估计均值为 
0. 603,标准差(不是标准误)为 0. 751。这一标准差95%的置信区间为 0. 272到 
2. 075。由于这一置信区间并不包含0,因此，作为证据可以表明母亲身份对于 
贫困状况的影响在不同个人之间确实存在着变异性。 

多分类反应变量的（固定效应）方法 

到目前为止，我们只考虑了二分反应变量的情况。现在，有一个分类反应 
变量 >，它能够取两个以上的值。假设这些取值都是整数值，范围从1到 J ， 巡 
标 (running index ) 为 j 。 令/^ = Prob (^^ = j ) o 接下来我们需要一个模型，以 
说明这些概率如何取决于预测变量 A 和〜。 

我们先从因变量的这些类别是序次排列的情况开始。针对序次分类因变 
量,最常用的模型是累积 logit 模型，也被称为序次 logit 模型。这一模型的固定 
效应形式可以如此 表述： 

log —— ^— = fit } + px it -hyzi + a iy > = h •••,/ — 1 [3. 4] 

11 — F iJt 

其中〜 = h ⑽ 是落人某一个类别 j 或更高类别的“累积” 概率。 不幸的是，条 
件最大似然法不能用于这种模型，因它不能为卬参数提供“简化充分统计量 (reduced 
sufficient statistics )”。 我们能做的是使用上一节讨论过的混合模型法，利用常规最大 
似然估计，配合稳健标准误，以调整各个体的多次观察之间的独立性 不足。 

作为示范，我们回到第2章中反社会行为的例子。在该数据集中，因变量 
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ANTI 是整数取值，并且取值范围为 0 到 6, 但在线性回归模型中被当做定量因 
变量对待。这里，我们釆取一种更恰当的方式把 ANTI 当做 Logistic 模型中的 
一个序次分类变量。 

与二分情况一样，本混合模型法的实现，同样是先计算每个预测变量的分 
个体均值，然后计算(各个观测值)相对于这些均值的离差。再将均值变量及离 
差变量都纳人累积 logit 模型中，作为预测变量。如果想得到具体单位系数，我 
们就得估计随机效应模型，但是很难找到可以对序次 logit 模型进行这种估计的 
商业软件。无奈之下，我们只好进行常规最大似然估计，并采用稳健标准误，以 
修正重复观察之间的相依问题。 

我是用 Stata 中的 ologit 命令完成上述任务的，结果在表 3. 8中。这些结果 
与表 2. 8中利用混合线性模型法得到的极其相似。所有的 P 值都能让我们对 
每个系数得出相同的结论。即便是系数本身及标准误也非常相近，当然在多数 
情况下并不会出现这样的结果。累积 logit 模型的系数表示落人因变量中较高 
类别而非较低类别的对数发生比的变化量。与二分类回归模型一样，对这些系 
数取指数幂之后就能得到发生比。要想知道更多有关如何解释这些系数的细 
节，可以参看笔者的另一本书 ( Allison ， 1999a )。 


表 3. 8反社会行为的混合累积 logit 模型 



系数 

稳健标准误 

P 

DSELF 

-0. 064 

0. 013 

0. 000 

DPOV 

0. 116 

0.117 

0. 320 

MSELF 

一 0. 108 

0. 027 

0, 000 

MPOV 

0. 696 

0. 185 

0. 000 

BLACK 

0.153 

0.157 

0. 330 

HISPANIC 

_0. 310 

0. 169 

0. 065 

CHILDAGE 

0.083 

0.111 

0. 453 

MARRIED 

-0. 189 

0. 163 

0. 247 

GENDER 

—0. 598 

0.128 

0. 000 

MOMAGE 

一 0. 017 

0. 029 

0.557 

MOMWORK 

0. 190 

0. 146 

0,195 

TIME—2 

0.016 

0. 069 

0.819 

TIME.3 

0. 167 

0. 077 

0. 030 
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两个离差变量 DSELF 和 DPOV 的系数可以当作固定效应系数来解释。因 
为这些系数只取决于个体内的历时变化，并且它们控制了所有恒定的预测变 
量。对这两个离差系数等于对应均值系数的原假设进行检验(利用 Stata 中的 
test 命令），发现自由度为2时卡方值为 9. 02,这在0_ 01水平上显著。与在线性 
模型中一样，其绝大部分原因来自于 MPOV 及 DPOV 系数之间太大的差异。 
这意味着即使通过稳健标准误修正了各观察之间的相依性，常规序次 logit 模型 
在这里仍不是合适的，至少对 POV 变量来说不合适。在此，我们得将注意力集 
中在离差系数上,因为它们控制了所有非时变自变量。 

现在我们转到更复杂的情况，这里因变量各个类别之间并不存在序次关 
系。对于非序次分类变量使用最广的是多分类 logit 模型 （multinomial logit 
model ) ，也被称为广义 logit 模型 (generalized logit model ) 。下面是这一模型的 
固定效应形式： 

log ^ = fMj + 7 jZi j = 1 ，…， J — 1 [3_ 5] 

公式 3. 5 ①可以被看作是一套联立的二分类 Logistic 回归方程，每个方程都将 
因变量的某一个类别与最后一个类别进行比较。固定效应^在不同个体之间 
及不同反应值之间都可以变动，但不随时间变动。 

固定效应多分类 logit 模型像二分类 logit 模型一样，可以为叫提供简化充 
分统计量，也即，为每个个体提供不同响应值的频次计数 （frequency counts ) 。 
原则上讲，这一模型可以通过在限定那些计数的条件下，采用条件最大似然法 
进行估计 ( Chamberlain , 1980)。不过没有现成的商业软件可以实现这一点。 
如果时变预测变量是定类的，那么模型就可以转变为对数线性模型 （ log-linear 
model ) 并在相应的框架下进行估计 （ Conaway ， 1989； Darroch McCloud ， 
1986； Kenward & Jones ，1991； Tjur ，1982)。 不过，建立一个那样的模型有一 
点复杂，这里我就不考虑该方案了。 

另一种估计的方法是将多分类模型分解成为几个二分类模型，一个模型对应 


①原书为公式 3. 4,根据上下文，当为编辑错误。——译者注 
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着一个特定类别与参照类之间的比较 ( Allison ，1999 a ； Begg Gray ，1984)。 
然后，每个二分类模型都可以采用本章已经讨论过的条件 Logistic 回归方法 
进行估计。尽管这一方法可以产生近似无偏的系数估计，但估计结果将因参 
照类的选择不同而存在差异。另外，缺乏各个变量对因变量的作用的整体 
检验。 

如我们在累积 logit 模型中看到的一样，要估计带有固定效应的多分类 
logit 模型，混合模型法是最容易实现的方法。作为示例，我们回到本章大部分 
地方都在使用的例子，该数据中有1151名十几岁的少女，她们被连续观察5年， 
每年1次。不过这一次，我们将使用一个新的反应变量 EMPSTAT ， 它有如下3 
个 类别： 


(1) 正处于就业状态， 

(2) 失业（下岗或正在找工作），以及 

(3) 退出劳动力市场(正在上学、在家料理家务等等）。 


至于自变量，我们将使用 MOTHER (目前至少有一个孩子）， SPOUSE (目 
前与丈夫同住），目前的年龄 AGE ， 以及 BLACK (与非黑人相对)。前3个变量 
为时变变量。 

第一步是计算各个时变变量分个体的均值以及相对于这些均值的离差。 
由于有241条记录的反应变量 EMPSTAT 为缺失值，因此在删除了这些带有缺 
失值的记录之后再计算均值非常重要。 

为了在 Stata 中估计多分类 logit 模型，我使用的是 mlogit 命令，并配以稳 
健标准误，来修正各个个体多次重复观察之间的相依问题。 

结果呈现在表 3. 9 的前两列数字中。从中可以看到两个二分类回归方程， 
每一个都将 EMPSTAT 中的一个类别与参照类——类别 1( 处于就业中)—— 
进行比较。这里的回归系数都是在假定所有观测彼此独立的条件下的常规最 
大似然估计，不过标准误却都修正了相依问题。需要记住的是，这些系数都是 
总体均值系数而非具体单位系数。 
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通过关注离差变量，我们可以看到成为母亲将增加失业或退岀劳动力市场 
的发生比。与丈夫居住将提高失业(相对于就业）的发生比，但会减小退出劳动 
力市场(相对于就业)的发生比。当少女们年龄变大时，她们将稍微不那么容易 
失业，并且将相当地不那么容易退岀劳动力市场。我还对每个离差变量系数是 
否等于对应的均值变量系数进行了检验，因此也就检验了固定效应模型与常规 
Logistic 回归模型是否等价。对于这两个二分回归方程，卡方检验都高度显著。 


表 3. 9就业状况的混合多分类 logit 模型 



GEE 估计 ( 总体均值系数） 

随机效应估计 ( 具体单位系数） 

失业 VS 就业 

退出劳动力市场 
VS 就业 

失业 VS 就业 

退出劳动力市场 
VS 就业 

系数 

稳健 

标准 

误 

系数 

稳健 

标准 

误 

系数 

标准 

误 

系数 

标准 

误 

DMOTHER 

0. 927** 

0. 160 

0. 799" 

0. 155 

1-237# 

0.201 

0. 951** 

0,221 

MMOTHER 

1.656** 

0.163 

0* 389* 

0. 167 

2. 185 _ 

0,212 

0.611** 

0. 234 

DSPOUSE 

0. 640** 

0. 180 

0, 569* 

0-221 

0. 816"* 

0,211 

0. 617* 

0. 269 

MSPOUSE 

0. 678 “ 

0. 242 

- 1 . 111** 

0. 264 

0. 829** 

0. 305 

—1. 459** 

0. 394 

DAGE 

-0. 070* 

0. 029 

-()• 381** 

0. 027 

-0.131** 

0.037 

—0. 503** 

0. 033 

MAGE 

-0. 306** 

0. 045 

—0. 505** 

0. 046 

-0. 394** 

0. 061 

-0. 663^ 

0. 062 

BLACK 

0. 393** 

0.096 

0. 499” 

0. 093 

0. 597** 

0. 127 

0. 720** 

0. 130 

截距 

4. 381“ 

0. 799 

8. 612 # * 

0.802 

5_ 630** 

1.076 

11, 29** 

1.091 


注： *0.01 </?<(). 05, 


在表 3. 9的最后两列中，我们可以看到另一套多分类 logit 模型估计结果， 
这是通过 Stata 的 xtlogit 命令估计两个分开的随机效应模型得到的。在第一个 
模型(失业相对于在职)中，所有“退出劳动力市场”的记录都被丢掉了。而第二 
个模型(退出劳动力市场相对于在职)中，所有处于“失业”类别的记录都被排除 
在外。比较随机效应估计值和 GEE 估计值，可以发现所有系数的符号和显著 
性水平差不多都相同。不过，随机效应估计结果在大小上普遍要大一些，因为 
它们是具体单位的而非总体平均的。 





总结 


第2章针对线性模型的所有固定效应方法都可以扩展应用到定类因变量 
上。基本要旨是一样的。固定效应方法能够控制所有未被观测的非时变变量 
的潜在干扰作用。不过在另一方面，相对于其他方法，固定效应方法趋向于具 
有较低的效率，因为个体间的变异未被考虑。当然，对于定类因变量，需要使用 
几个略有不同的估计程序。 

本章的主要焦点在于二分类反应变量的回归模型。当每个个体恰好都只 
被观察两次时，固定效应 Logistic 模型可以用常规 Logistic 回归程序，通过条件 
最大似然法进行估计。这一方法需要如下几个步骤 :放弃 所有在两次观察中因 
变量取值相同的案例，将所有时变自变量都重新编码为差分值，然后对两个反 
应变量之一拟合常规二分类 Logistic 回归。 

当每个个体的因变量仍然为二分变量，但都有两个以上的观察记录时，需 
要一种不同的数据结构，要求每个人的每一次回应都有一条单独的记录。但 
是，由于“简化充分统计量问题”，我们不能简单地估计含有标识的每个个体的 
虚拟变量的常规 logistic 回归。这种回归产生的估计系数将偏离0,尤其是当每 
个个体的观察数很小时。解决之道在于使用条件最大似然法将固定效应移出 
似然方程。在 Stata 中，这可以通过 xtlogit 或 clogit 命令来完成。 

很多研究者使用 GEE 估计或者随机效应 logistic 回归，而不是固定效应 
logistic 回归，前两者都可以通过 xtlogit 命令进行。与固定效应方法相比，这两 
种方法都没有对未被测量的非时变解释变量进行任何控制。和固定效应一样， 
随机效应估计产生“具体单位”系数而不是“总体平均”系数。后者一般都会因 
为未被观测的异质性而逐渐向0消退变小。 

固定效应和随机效应方法可以通过估计一个随机效应模型的方式综合成 
混合模型，估计前将时变预测变量分解为个体均值与相对这些均值的离差，然 
后再估计一个随机效应模型。如我们在第2章看到的一样，混合模型允许我们 
在其中纳入非时变变量，并且提供了一个比较固定效应模型和随机效应模型的 



简单检验。 

至于含有两个以上类别的反应变量，在商业软件中通常都无法对固定效应 
logistic 回归进行条件最大似然估计。退而求其次，不管是针对序次因变量还是 
名义因变量，目前最好的办法还是使用混合模型法，并利用稳健标准误修正(各 
观察记录间的)相依问题。 



第 4 章 1 计数变量的固定效应模型 


我们的因变量经常会是某种计数 ( counts ): 小孩数、过去一年的性伴侣数、 
家里的电脑数量、过去5年被拘捕的次数等等。很多研究者把计数变量当作连 
续测量变量，并使用一般最小二乘回归进行分析。这样做可能是不恰当的，原 
因有一些。例如，计数变量必定是离散型的，并且取值不能小于0。它们的分布 
通常都是高度偏态的。 

一种通常更好的办法是估计泊松回归模型 (Poisson regression model ) 或负 
二项回归模型 (negative binomial regression model ) ，这两种方法专门被设计用 
来对计数变量建模 ( Long ， 1997)。在对它们进行简略介绍后，我们将考察如何 
扩展这些计数变量模型，以处理每个个体被观察多期的数据，并带上固定效应 
以控制所有非时变预测变量。 [15] 在此过程中，我们将再次遇到上一章讨论二分 
类结果变量模型时出现的很多问题。不过，困扰 logistic 回归的那些估计问题 
在计数变量模型中没有那么严重。 

我们先来考虑一下将会贯穿本章的例子。这一数据包含346个制造业公司 
(manufacturing firm ) ，记录了从1975年到1979年每个公司每年获得的专利数 
量。有关这一数据的已有分析可以在霍尔、格瑞里奇及豪斯曼的著作 （ Hall ， 
Grilliches 8^ Hausman ，1986) 以及卡梅伦和特里维迪的著作 （Cameron & 
Trivedi , 1998) 中找到。原始数据集中每个公司有一条记录，每条记录中变量 
PAT 75 到 PAT 79, 包含这5年各年的专利数量。作为预测变量，我们有1970年 
到 I 979 年每个公司研究与发展开支 （research and development expenditures ) 
的对数值 ( LOGR 70 到 LOGR 79)。 同时也包括两个非时变 变量： LOGSIZE 是 
1972年公司账面价值 (book value ) 的 对数; SCIENCE 是虚拟变量，如果公司属 
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于科技行业 (science sector) 则为 1 ，不属于科技行业则为 0 。 


每个个体被观察两期的计数数据泊松模型 

和在前面几章看到的一样，当每个个体只有两期观察数据时，线性及 logis¬ 
tic 固定效应分析可以通过常规软件用简化方法完成。对于计数数据，这同样可 
行。事实上，固定效应泊松回归模型可以采用用于分组数据 (grouped data) 的 
普通 logistic 回归程序进行估计。 

为了用专利数据说明这一点，我们将忽略中间的年份，而只关注1975年和 
1979年的记录。 令如 表示公司纟在1975年的专利数， 加 表示在1979年的专利 
数。这两个变量都被假定服从期望值为; U 的泊松分布。这样，％ =「的概率由 
如下方程 给定： 

Pr ( y it = r ) = — ， r =0， l ，2， … [4. 1] 

泊松分布可能是所有分布中最简单的适合计数数据的概率分布。它可以 
从满足如下假定的随机过程模型中推导出来 :（ a ) 事件(在这里是专利)不能同时 
发生，并且 ( b ) 事件之间彼此独立 (Cameron & Trivedi ， 1998)。所谓彼此独立， 
意思是一个事件的发生并不会提高或降低将来事件的发生概率。 

注意，我们的模型并没有假定整个样本都服从某一单一泊松分布。相反， 
每个公司的专利数都来源于不同的泊松分布，分布的期望值 h 在不同公司及不 
同时期都可以不同。泊松分布的独特性在于它的均值和方差 相等： 

E(y it ) = var {y it ) = X u [4. 2] 

不幸的是，我们将看到，这一性质有时也会导致一种被称为过离散 (overdis- 
persion) 的问题，这种问题会严重危害泊松回归模型的估计。 

接下来，我们令 A, ，作为自变量的对数线性函数 (log-linear function) 

log — fit + 卩工 “ +7^i +a ； [4. 3] 

与前面各章一样， A 表示时变预测变量，则表示非时变预测变量，％表示 
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未被观察的“固定效应”。和以前一样，把 m 当作一套固定的常数，等价于将它 
们当作是可 以与〜 存在任意的不受限的相关的随机变量。向量 〜包括 当前年 
份£及此前5年每一年的研究与发展开支。 

我们的目标是估计出方程 4. 3中的参数。为了实现这一点，需要使用条件 
最大似然法，即第3章中用来估计固定效应 logistic 模型的方法。考虑到％的 
分布以两个时期汇总的事件总数(表达为似=加+^ 2 )为条件，因此它可以表 
示为％ 2 |叫一 S ( A ， 叫)。也就是说，在满足总数量为叫的前提下，1979年的 
专利数加服从参数为 A 和取的二项分布， 其中： 

A = [4.4] 

Ai 2 卞 An 

经过一些运算，得到： 

log(i p t ) = (^2 ~fJL\ ) + — Xa ) [4.5] 

这样，我们就已将泊松回归模型转变为自变量为原始自变量差分值的 logistic 
回归模型。注意，和以往的情况一样，如和都被从方程 4. 5中消除掉了。 

为了在 Stata 中实现这一条件法，我使用了 blogit 命令，它可以对分组二项 
数据 (grouped binomial data ) 进行最大似然估计 (ML estimation ) 0 blogit 命令 
要求因变量包括两个 部分: “事件 (ev ⑼ ts )” 数以及“试验 ( trials )” 数。通过提交 
下面的命令，我首先估计了一个不带任何自变量(仅含截距项)的模型。 

blogit pat79 total 

其中 PAT 79 是1979年的专利数, TOTAL 等于 PAT 75 + PAT 79。 估计得 
到的截距为一 0. 1386,对应的标准误为 0. 0129,所得 z 统计量为一 10. 68。这告 
诉了我们什么呢？如果用 mi 表示年份1的平均专利数，而 m 2 为年份2的平均 
专利数的话，这一截距其实就是 log im x / m 2 ) 0 如果这两个年份的专利数恰好 
一样，那截距就会等于0。上述结果为负，表明平均专利数随着时间推延在下 
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降。更具体的说，如果我们 计算： 

100[ exp (— 0. 1386) — 1] =— 12. 9% 

就可以得到平均值从1975年到1979年下降的比例。另外，由于截距对应的 z 
统计量如此之大，我们可以拒绝认为这两个年份的均值相等的虚无假设。 

事实上，这个 z 统计量太大了。由于所谓的过离散问题，基于泊松分布估计 
所得的常规标准误只是真实标准误的一个低估值 ( underestimate )。 在后文我 
们将更详细地讨论离散问题。在那以前，我们可以在 Stata 中使用刀切法 ( jack - 
nife ) 或者自助法 ( bootstrap ) 选项，以获得稍微好一些的标准误估计。这些计算 
密集型方法 ( computer-intensive methods ) 利用数据集的众多子样本或再抽样 
样本反复进行分析，以估计标准误（更详细的解释可以看 Mooney & Duval , 
1993)。这里，刀切法标准误为 0. 0371，产生的 z 统计量为 一3. 74。自助标准误 
为 0. 0358,对应 z 统计量为_ 3. 78。尽管这些 z 统计量比原来的常规 z 统计量 
要小很多，但很显然，它们仍然是髙度显著的。 

下一步将纳人自变量，它们是研究与发展经费支出对数的差分值。为了与 
以往对这一数据的分析保持一致，我们的分析目标是同时纳人“当前 ( current )” 
的研究与发展开支和此前5年每1年开支的时滞值 (lagged values ). 为此，我 
定义了如下 变量： 

RD 0 = LOGR 79 - LOGR 75 
RD 1 = LOGR 78 - LOGR 74 
RD 2 = LOGR 77 - LOGR 73 
RD 3 = LOGR 76 - LOGR 72 
RD 4 = LOGR 75 - LOGR 71 
RD 5 = LOGR 74 - LOGR 70 


RD 0 是计算专利数那两年的差分值， RD 1 到 RD 5 是1到5年的时滞值的 
差分值 (difference scores for lags of 1 to 5 years )。 这 6 个变量都被纳人分组 
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logistic 回归模型作为解释变量，结果呈现在表 4. 1 的模型1中。 

检査这些参数的估计值及相应的统计量，可以看到 RD 0 ，研究与发展支出 
的同期测量值对专利数有着高度显著的影响，系数为 0. 5214。解释这一系数 
时，得留意因变量(专利数的期望值)和自变量(研究与发展开支)都被取了对数 
(见方程 4. 3)。因为两个变量都被取了对数，我们可以说，在控制了研究与发展 
经费的时滞测量后，研究发展经费1%的增长与同一年期望专利数 0. 52%的增 
长有关。开支的时滞测量值的影响比这要小得多。 

这里我们仍需要使用更为稳健的标准误估计以处理过离散问题。呈现在 
表 4. 1中的自助标准误达到常规标准误的两倍。使用自助标准误后，我们发现 
只有 RD 0 仍保持统计显著，而且即使是这个变量，它的 z 统计量也大大地变 
小了。 


表 4.1 专利数据的条件泊松估计——两个时期 




模型 1 



模型 2 


系数 

常规 

标准误 

自助 

标准误 

系数 

常规 

标准误 

自助 

标准误 

RD0 

0.521 

0. 084 奸 

0- 207* 

0. 533 

0. 085** 

0. 209* 

RD1 

—0. 207 

0.113 

0.227 

-0. 192 

0. 113 

0.256 

RD2 

— 0. 118 

0, 111 

0. 277 

-0. 137 

0. 111 

0. 341 

RD3 

0, 060 

0. 096 

0. 263 

0. 062 

0. 096 

0.314 

RD4 

0. 181 

0. 090* 

0. 244 

0. 183 

0. 091* 

0. 209 

RD5 

— 0. 093 

0. 069 

0. 118 

—0. 100 

0. 069 

0. 167 

SCIENCE 




0.023 

0.028 

0. 089 

LOGSIZE 




0.017 

0. 008* 

0. 017 

截距 

-0. 222 

0.018** 

0. 052** 

—0. 347 

0. 062** 

0. 138* 


注 ： * 0.01<P<0. 05, **/|<0_01 。 


和我们前面的固定效应模型一样，表 4. 1中的估计也都控制住了所有在不 
同时期保持稳定不变的变量。尽管系数解释起来不那么直截了当，我们仍可以 
把不随时间变化而变化的自变量放入模型。表 4. 1中的模型2含有虚拟变量 
SCIENCE (是否属于科技行业)以及 LOGSIZE (公司账面价值)。当我们使用自 
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助标准误时，这两个变量都没有达到统计显著。它们的系数可以解释为与时间 
的交互作用的大小。与所有的交互项一样，这些系数可以采用两种不同的解释 
方式。例如， SCIENCE 的系数 0,0275 可以表示 SCIENCE 在 1979 年的系数与 
在 1975 年的系数的差异。它在统计上高度不显著，说明这一变量在这两个年份 
有着相等的作用。或者，我们可以将 0. 0275 解释为时间对属于科技行业的公司 
的影响的增加量，相对于那些不属于科技行业的公司。当然，因为它远没有达 
到统计显著的水平，我们可以得出如下结论 :这两 种不同行业的公司的专利数 
的变化率实质上是一样的。类似的解释也可对 LOGSIZE 做出。 

多期数据泊松模型 


当个体在两个以上的时期得到观察时，固定效应泊松模型的估计需要采 
取不同的方法。现在我们继续上文的例子，分析1975年到1979年每一年的 
专利数——用 >表示。和前面一样，我们假定每个九都来自公式 4. 1给定的 
期望值为 A , 的泊松分布，令4像方程 4. 3所给定的那样，是自变量的对数线 
性函数。 

有两种方法对这一模型进行估计，条件最大似然估计和无条件最大似然估 
计。在条件最大似然估计中，似然函数建立在每个个体(不同时期）的专利数的 
总和一定的条件上，它能消除固定效应 （ m )。 所得条件似然值 （Cameron & 
Trivedi , 1998) 与下面的式子成 比例： 


-p-p -|-p f expCjt/j -\-0x it ) 

丄 i 丄丄 I 丄 2 ex P(/^ 工 is ) 


[4.6] 


在 Stata 中，这一似然值可用 xtpoisson 命令来进行最大化(这一命令同样 
可估计随机效应及总体平均模型)。该命令要求数据集已被重构为每个公司每 
一年都有一条记录的形式，并且有一个共同的 ID 变量将来自同一公司的5条记 
录连在一起 [16] 。新数据集有来自 34 6 个公司的 1730 条记录。表 4. 2 展示了样 
本前 4 个公司的 20 条记录。 
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和在两期数据情况下一样，我们的回归模型中包括当年的研究发展经费及 
此前5年的经费。模型也纳人了与5个年份中的4个对应的年份虚拟变量组 
(第1年被作为参照类)。表 4. 3中的结果与我们奏 4. 1中用5年中2个年份数 
据得到的相似。即当年的研究发展经费支出 （ RDO ) 有很强的作用，而时滞值影 
响要弱得多 ( RD 1 到 RD 5)。 TIME 系数表明 :在这 5年期间专利数有显著的下 
降趋势。请 注意: 固定效应模型没有报告截距信息，因为截距项被从条件似然 
函数中消除了。 

在该表中，分别用常规方法及自助法对固定效应(条件似然法)标准误进行 
了估计。 E 17 」 和两期分析一样，自助标准误要比常规标准误大得多，多数情况下 
前者都接近后者的两倍。原因还是泊松回归中非常常见的过离散问题。大体 
上讲，过离散意味着事件计数的实际变异要比基于某一泊松分布的期望变异 
多。这是经常发生的，因为回归模型通常难以囊括解释这些计数变异的所有原 
因。不过，由于我们估计的是固定效应模型，已经控制住了公司间在专利数上 
的所有变异。因此，能够引发过离散问题的被忽略变量只能是那些随着时间变 
化在公司内有所变动的变量。在含泊松回归的某些软件(如 SAS ) 中，你可以得 
到某种被称为偏差 （ deviance ) 的统计量，它能够直接测量过离散的程度。但 
Stata 不为常规泊松回归报告偏差统计量，因此使用自助标准误或刀切标准误以 
避免潜在错误总是一种好办法。 

为了进行比较，表4.3同时报告了使用# 1 >^ 8 011估计的另外两种模型， 
随机效应模型和总体均值模型（由广义估计方程或 GEE 估计所得）。与固 
定效应模型一样，随机效应模型也能用方程 4. 1和 4. 3描述，只是其中的如 
被假定为具有特定概率分布的随机变量，并且 和&及 &相互独立。这一独 
立假定，意味着随机效应模型没有控制未被观察的协变因素 （unobserved 
covariates ) 0 

Stata 中的默认设置假定山服从对数伽马分布 （ log-gamma distribution )， 
不过也能将其设定为正态分布。而在总体均值模型中，并没有假定泊松回归方 
程中还存在一个干扰项，而只是允许每个公司的各次观察之间存在相关。[ 18 ]这 
种总体均值模型是通过 GEE 方法进行估计的，如在 logistic 模型中一样，这种 
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方法是一种迭代广义最小二乘法 （iterated generalized least squares )。 随机效 
应及 GEE 估计都很容易受过离散问题影响，因此常规标准误是有偏的。针对 
随机效应模型，我报告了自助标准误。对于 GEE 模型，我报告了更容易计算的 
稳健标准误，但 xtpoisson 命令中无法为随机效应及固定效应模型提供这一标 
准误。 


表 4. 3 专利数据的泊松回归估计—— S 个时期 




固定效应 


随机效应 

GEE 估计 

系数 

常规 

标准误 

自助 

标准误 

系数 

自助 

标准误 

系数 

稳健 

标准误 

RD0 

0. 322 

0. 046 * # 

0, 084** 

0. 477 

0. 072** 

0. 303 

0. 053** 

RD1 

-0. 087 

0. 049 

0. 087 

—0. 008 

0. 058 

0. 049 

0. 056 

RD2 

0. 079 

0. 045 

0. 064 

0. 136 

0. 061" 

0. 167 

0. 051** 

RD3 

0. 001 

0. 041 

0. 072 

0. 059 

0. 090 

0.085 

0. 062 

RD4 

—0. 005 

0. 038 

0. 065 

0. 028 

0.051 

0. 050 

0. 042 

RD5 

0, 003 

0. 032 

0. 063 

0. 082 

0. 067 

0. 038 

0. 043 

TIME 2 

—0. 043 

0. 013 奸 

0.017* 

-0, 047 

0.016 并 

—0. 048 

0, 017 糾 

TIME 3 

—0- 040 

0. 013** 

0.026 

— 0.056 

0. 024* 

— 0. 052 

0. 026* 

TIME 4 

-0. 157 

0_ 014** 

0. 036 奸 

-0. 190 

0. 041** 

-0. 178 

0. 043 ** 

TIME 5 

-0. 198 

0.015** 

0. 033 料 

— 0. 253 

(X 038** 

— 0. 234 

0, 04r* 

截距 




— 1.403 

0. 081** 

1.828 

0. 123 ~ 


注： *0.01 </?< 0.05, ^ p<0. 01 e 


与我们在此前的比较中看到的一样，固定效应估计的标准误要比随机效应 
及 GEE 模型的大。一如平常，这是因为固定效应只使用了公司内的变异而完 
全放弃了公司间变异的原因。事实上，5年期间每年的专利数为0的公司根本 
就被排除在条件似然函数之外。这一数据集中了 22个这样的公司。从好的方 
面看，固定效应估计控制了所有稳定的公司属性，而随机效应及 GEE 估计只控 
制了被明确纳入模型的那些公司层面的性质(在这几个模型中没有纳入一个这 
样的变量)。就本分析而言，三种方法的结果唯一的主要区别在于 :随机 效应及 
GEE 模型结果显示 RD 2 有一定作用，而固定效应模型中并不存在此类证据。 

固定效应泊松回归模型也可以使用无条件最大似然法进行估计。这是通 
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过估计一个含有标识所有公司（少一个)的虚拟变量组的常规泊松模型来实现 
的。在讨论 logistic 回归模型的第3章中，我们已经看到条件最大似然估计和无 
条件最大似然估计产生了不同的估计结果。而且，无条件最大似然估计是错误 
的——他们倾向于产生太大的系数估计。不过，在泊松回归模型中，条件及非 
条件最大似然估计总是产生相同的结果 (Cameron & Trivedi ， 1998)。因此，选 
择哪一个纯粹是看哪个计算起来方便。在 Stata 中，使用无条件法分析本专利 
数据所花的时间要长得多，因为需要估计超过300个虚拟变量的系数。不过，很 
多软件包(如 SAS ) 不含进行条件泊松回归的程序，在这种情况下就只好选择无 
条件最大似然估计了。 

表 4. 3中的自变量都是时变变量。我们是否也能在固定效应模型中纳人非 
时变变量呢？在上文中，当每个公司只有两条记录时，我们在用于泊松模型条 
件估计的 logistic 模型中纳入了两个非时变变量。而这些变量的系数被解释为 
与时间的交互作用。但是此刻，非时变变量不能被直接纳人模型。不过，我们 
可以设置非时变变量与时变变量，包括时间本身之间的交互项。例如，有人可 
能假定研究发展经费支出对科技公司专利数的影响要比在非科技公司的大。 
表 4. 4报告的是一个纳人了 SCIENCE 和 RD 0 乘积项的模型的结果。可以看 
到，没有必要(甚至根本不能)纳入 SCIENCE 的主效应。简单起见，这一模型中 
删除了在表 4. 3中不显著的研究发展开支的时滞效应。 

表 4. 4含有非时变协变置的条件泊松估计 



固定效应 

常规标准误 自助标准误 


RD0 

0. 375 

0. 048** 

0. 078** 

RDO* SCIENCE 

—0. 204 

0. 067 糾 

0, 188 

TIME—2 

-0. 034 

0. 013** 

0.014* 

TIME.3 

-0. 034 

0.013** 

0. 020 

TIME_4 

-0. 151 

0 . 0 『 

0. 031** 

TIME 一 5 

-0. 189 

0. 015** 

0. 035** 


*0_01 </)<0.05, *X0.01 o 
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从表 4. 4中，我们可以看到，在使用常规标准误时， RDO 与虚拟变量 SCI ¬ 
ENCE 之间的交互作用显著，而在 自助标准误下，这一交互作用并不显著。但 
不管是在哪种情况下，交互项的作用都与假设——研究发展经费对专利数的影 
响在科技公司要比非科技公司大——相反。更具体地说，研究发展经费在非科 
技公司的影响是 RD 0 的主效应，即 0. 375。而在科技公司，其作用是 ()• 375 — 
0. 204 - 0. 171，等于主效应加上交互作用。 

现在我们检验一下专利数的变化速率在科技行业与非科技行业是否存在 
差异。对于表 4. 5中的模型，我限定时间为线性作用，然后纳人一个 SCIENCE 
与 TIME 的交互作用项。表 4. 5中的结果未能证明科技公司和非科技公司的 
专利数在变化速率上有所不同。交互项系数还远没有达到统计显著的水平(不 
管是用常规标准误还是自助标准误)，其大小也仅仅只有时间主效应的2%。 


表 4.5 

条件泊松 估计一 

一 含与时间的交互作用 


固定效应 


系数 

常规标准误 

自助标准误 

RD0 

0. 276 

0. 039 

0. 075 

TIME 

—0. 049 

0.005 

0. 010 

SCIENCE* TIME 

—0. 001 

0. 006 

0. 016 


计数数据的固定效应负二项模型 

如我们刚刚已经看到的，固定效应泊松回归模型很容易受到过离散效应的 
影响。这多少有些出人意料，因为固定效应模型已经 通过& 参数允许不同个体 
之间存在未被观测到的异质性。但是这种异质性被假定不随时间变化而变化， 
然后仍然可能存在着仅仅属于某些特定时点的未被观测到的异质性，正是它们 
导致了观察到的过离散。正如我们所见的，在过离散情况下，可以通过使用自 
助法及刀切法对标准误进行矫正。尽管这种方法并不坏，但通过直接将过离散 
问题建构到事件计数模型中，我们可能做得更好。 
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为了模拟这种过离散，我们假定每个公司每个时点的专利数来自于某一个 
负二项分布。负二项分布是一般化的泊松分布，通过一个额外的参数，它允许 
过离散存在。负二项模型的吸引之处在于，它所估计的系数更加有效(抽样变 
异更小)，而且其标准误及统计检验比诸如自助法及刀切法之类的经验的、事后 
的调整更精确。 

不过，负二项回归模型公式化的方式不止一种。这里使用的是被卡梅伦和 
特里维迪 (Cameron and Trivedi, 1989) 叫做 NB2 的模型，其中 > 的概率质量函 
数 (pmf) 是这样定 义的： 

Pr(y “ =r)= U+i) fcV/tV/ [4 - 7] 

在这一等式中 a , ，是％的期望值， 0 是过离散参数， r ( •) 是伽马函数。当 
沒 — oo , 这一分布向泊松分布收敛。如在泊松模型中一样，我们假定&的期望值 
可以被一个对数线性方程 描述： 

logAii = /it + 卩工 u +ai [4. 8] 

其中 & 作为固定效应处理。在控制 a 的条件下 (conditional on &) ， 每个个 
体(如本例题中的一个公司）的几个计数值被假定彼此独立，尽管在无条件状况 
下，它们可能互相依赖。 

这一模型如何能被估计出来呢？不像泊松模型，在这里不能用条件似然 
法。用技术术语来说，每个个体的计数总和并不是&的“完全充分统计量 ( com ¬ 
plete sufficient statistic )”， 因此以总数为条件 （conditioning on the total counts ) 
并不能将&从似然方程中消除掉。豪斯曼、霍尔及格瑞里奇 （ Hausman，Hall 
Griliches , 1984) 提出了一种非常不同的固定效应负二项回归模型，他们为该 
模型推导出一种条件最大似然估计量。事实上，他们的方法已经被吸收进 Stata 
的 xtnbreg 命令中。不过埃里森和沃特曼 (Allison Waterman , 2002) 已表明 
这种方法并非真正的固定效应回归模型,它事实上并没有控制所有的固定自变 
量，下面我们就会看到这一点。 

相反，我们将进行无条件最大似然估计，通过估计纳入了标识所有个体(除 
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其中一个外)的虚拟变量的负二项回归模型的方式。在 stata 中，这可以通过 
nbreg 命令实现。[ 19 ]这一模型的运算非常慢，因为有大量公司虚拟变量的系数 
需要估计。为了稍微提高速度，我忽略掉22个在此5年中没有任何专利的公 
司。这些公司对似然函数没有任何贡献，并且其虚拟变量系数不收敛。 

表 4. 6中的结果应该与表 4. 3中固定效应泊松回归的结果进行比较。这里 
没有将与各个公司对应的虚拟变量的系数呈现出来。显然，负二项回归模型的 
系数与泊松模型的结果非常相似。而且，负二项模型的标准误及检验统计量与 
自助标准误泊松模型的相近。标签为阿尔法 ( Alpha ) 的估计参数是离散性的一 
种测量。事实上，它是1/0的估计，其中0为方程 4. 7中的那个参数。很明显阿 
尔法大于0,系数取值达到其对应标准误取值的10多倍，这意味着存在显著的 
过离散。 


表 4. 6固定效应负二项模型的无条件估计 




固定效应模型 


系数 

常规标准误 

梯度外积 (OPG) 标准误 

RD0 

0. 371** 

0. 063 

0. 072 

RD1 

— 0. 083 

0. 068 

0. 073 

RD2 

0. 064 

0. 064 

0.075 

RD3 

0. 014 

0. 060 

0,071 

RD4 

0. 034 

0. 056 

0. 060 

RD5 

0. 002 

0. 046 

0. 052 

TIME 一 2 

—0. 049* 

0.023 

0.027 

TIME 一 3 

一 0. 051 # 

0. 023 

0. 029 

TIME.4 

-0. 159” 

0. 024 

0. 028 

TIME.5 

— 0. 224 ## 

0. 025 

0. 028 

截距 

3. 677 

0. 118 

0. 101 

Alpha 

0. 020“ 

0. 002 

0.002 


注 ： * 0.0\<p<0. 05, ** p<0, 01 o 


Stata 还报告了 Alpha = 0 这一虚无假设的似然比卡方统计量，在这里它的取 
值为 499. 54,对应自由度为1,无论以什么标准来说，这都是统计显著的。这一统 
计量是通过将负二项模型的对数似然值 ( log - likelihood ) 与泊松模型对数似然值的 
差值乘以2计算得到的。这样做可行是因为 :泊松 模型是负二项模型在 Alpha 值 
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等于0时的特例。这一检验意味着我们应该拒绝泊松模型，选择负二项模型。 

显然，负二项模型对这一数据的拟合要比泊松模型好得多。与泊松模型 
(条件估计与无条件估计必然相同)不同，无条件负二项估计无法保证能够抵抗 
来自由伴随性参数问题(在第3章 logistic 模型中讨论过)造成的偏差。通过使 
用蒙特卡罗模拟 (Monte Carlo simulation) ，埃里森和沃特曼 (Allison Water¬ 
man, 2⑻ 2) 发现 :无条 件负二项回归估计量没有呈现任何相对于伴随性参数的 
真正偏差。他们同样表明：负二项估计量有着比泊松估计量确实要小的标准 
误。不过，无条件的负二项估计的确有一个缺 陷:其 置信区间倾向于太小(尽管 
总体差值 [undercoverage] 远非泊松模型那么严重）。在很多情况下，名义的 
95%的置信区间只有85%的机会覆盖真值。这一问题可以通过对过离散产生 
的标准误进行调整而轻松地解决，调整所使用的是一个基于离差统计量的公 
式。在模拟中经此调整以后，几乎在所有情况下，实际覆盖率都已非常接近名 
义的95%的置信区间。尽管 Stata 不报告这一矫正所需的离差统计，我发 现：由 
vce( OP g) 选项产生的标准误与由离差矫正产生的标准误一样。这些标准误呈现 
在表 4. 6的第3列。 

对于专利数据的例子来说，负二项估计的运算时间还能够容忍，但对于非 
常庞大的数据集来说就会是很大的问题，届时将有大量虚拟变量的系数需要估 
计。 G ree ne(2001) 给出了此种运算难题如何迅速得到解决的办法，但是需要对 
现有 Stata 计算法则进行调整。 

在前面，我曾提到 Stata 的 xtnbreg 命令下的条件负二项法并非真正的固定 
效应法。表 4. 7为这一事实提供了说明。这些估计结果是用 xtnbreg 命令及固 
定效应选项产生的。在模型1中我们只纳人了时变预测变量，结果与我们在 
表 4. 6中看到的非常相似。但我们得到了截距项的估计值，这本该已经在条件 
似然函数中消除了。模型2包括两个非时变自变量， SCIENCE 和 LOGSIZE。 
如果条件似然法真的控制了所有非时变变量，那我们应该无法纳入这些变量， 
因为它们是冗余的。另夕卜，我们发现 LOGSIZE 有高度显著的系数，而 RD0 的 
作用因为 SCIENCE、LOGSIZE 的纳入而发生变化。这些对于真正的固定效应 
估计量来说都是不合常理的。 
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表 4. 7 State" 固定效应”负二项模型的估计结果 

模型1 模型2 


RDO 

0.319** 

0, 067 

0. 273** 

0.071 

RD1 

— 0. 080 

0,077 

-0. 098 

0. 077 

RD2 

0.056 

0. 071 

0. 032 

0_ 071 

RD3 

_ 0. 013 

0, 066 

-0. 020 

0, 066 

RD4 

0. 035 

0. 062 

0. 016 

0.063 

RD5 

0. 009 

0,052 

一 0. 010 

0. 053 

TIME.2 

-0. 042 

0. 025 

—0. 038” 

0.024 

TIME 一 3 

—CL 049 

0. 025 

一 0. 040** 

0. 025 

TIME.4 

一 0_ 1610 

0. 026 

一 0. 144** 

0. 026 

TIME 一 5 

-0. 215** 

0. 026 

—0. 196** 

0. 027 

SCIENCE 



0. 018 

0. 198 

LOGSIZE 



0. 207** 

0. 078 

截距 

2. 424 ^ 

0.175 

L 661** 

0. 343 


注： * X 0.01 o 


混合（模型）法 

如在前文看到的一样，有可能将固定效应与随机效应方法结合起来，从而 
获得各自的一些优点。在这一框架内，我们可以进行统计检验，以比较固定效 
应模型和随机效应模型，还可以对不随时间变化而变化的变量的影响进行估 
计。一如从前，第一步是为各个体计算每个时变自变量的均值，然后计算相对 
于这些均值的离差值。接下来的步骤是运行一个同时将离差变量和均值变量 
作为自变量的回归模型。在这里，我们将估计一个负二项回归模型，因为它们 
不那么容易犯过离散问题。为了得到正确的标准误，所用的估计方法是否能允 
许各个个体的多次观察之间存在相依性将会非常重要。随机效应模型和总体 
均值 (GEE) 模型都能做到这一点。 

利用 Stata 的 xtnbreg 命令，我把随机效应模型和 GEE (总体均值)模型都 
估计出来了，结果呈现在表 4. 8中。对于 GEE 模型,我估计的是默认的“可交换 
( exchangeable )” 模型，这种模型假定同一个公司所有年份之间的相关相等，这 
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使得其在本质上与随机效应模型等价。所有以字母 D 幵头的变量名代表的是 
离差变量，而以 M 开头的变量代表分企业的均值。 


表 4. 8负二项回归的混合模型估计 



随机效应 


广义估计方程 (GEE) 

DRD0 

0. 322** 

0,071 

0. 410** 

0. 120 

DRD1 

一 0. 057 

0. 076 

—0. 129 

0. 120 

DRD2 

0,081 

0.068 

0. 056 

0.082 

DRD3 

-0. 006 

0. 064 

一 0. 012 

0. 095 

DRD4 

0.011 

0. 059 

0.007 

0. 099 

DRD5 

0. 019 

0. 050 

一 0. 062 

0.088 

MRD0 

— 0. 336 

0. 697 

0. 031 

0. 798 

MRD1 

2. 246 

1.426 

1. 080 

1.722 

MRD2 

-1. 985 

1.585 

—1. 110 

1.850 

MRD3 

— 0. 500 

1.408 

—0-075 

1.566 

MRD4 

1. 248 

1. 106 

1.119 

1. 136 

MRD5 

一 0, 051 

0.517 

-0. 274 

0. 478 

SCIENCE 

0. 057 

0. 103 

-0. 007 

0.112 

LOGSIZE 

0.119** 

0. 045 

0. 105* 

0_ 052 

TIME_2 

— 0_ 042* 

0. 021 

—0. 052 

0. 034 

TIME 一 3 

—0. 049* 

0.022 

—0. 049 

0. 040 

TIME,4 

— 0_ 168** 

0. 023 

-0. 100* 

0, 047 

TIME-5 

—0. 208** 

0.025 

-0. 209** 

0. 050 

截距 

1. 038** 

0. 171 

1. 002 

0. 178 


注 ： * 0.01<p<0. 05, 01 o 


离差变量的系数可以当作固定效应估计值来解释，因为其仅仅基于公司内 
的变异，也正因为如此，它们控制了所有固定的预测变量。事实上，它们非常接 
近表 4. 6中研究发展经费变量的固定效应系数。和那个表格一样，唯一达到统 
计显著的离差变量是 DRD 0, 即当年研究发展经费支出的对数。 GEE 系数 0. 41 
说明研究发展经费增长1%与专利数增加 0. 41%相关。 

与平常一样，混合模型法的一个吸引力在于它能够纳入非时变预测变量，在 
这里是 SCIENCE 和 LOGSIZE 。 后者对于专利数有着显著的正影响。不过要谨 
记，与离差变量的系数不同，这些系数并没有控制其他未被纳入的解释变量。 




富覦回 妇分析 


混合模型的另一魅力在于它具备对固定效应模型与限制更多 （more re _ 
stricted) 的随机效应模型进行比较检验的能力。这是通过检验离差系数是否与 
对应的均值系数相同来实现的。从表 4. 8可以看到，尽管均值系数没有一个统 
计显著，但从总体上而言，它们与离差系数都大不相同。针对模型差异的卡方 
检验只能为选择固定效应模型提供勉强的 支持。 对于随机效应模型， Wald 卡 
方值为 12. 16, 自由度为 6(p = 0. 06 )。 对于 GEE 模型, Wald 卡方值为 12. 87, 
自由度为 6 (p = 0. 04 )。 


总结 


针对计数数据的固定效应模型，可以在因变量服从泊松分布或负二项分布 
的假定下进行估计。当每个个体只有两期观察时，固定效应泊松模型的条件最 
大似然估计，可以通过将泊松模型转变为解释变量为差分值的分组数据 logistic 
回归模型来实现。当每个个体有两个以上的观察记录时，泊松模型的条件最大 
似然估计可以通过 Stata 中的 xtpoisson 命令完成。 

无条件最大似然估计可以用标准的泊松回归软件完成，用虚拟变量来代表 
固定效应即可。与 logistic 回归不同，固定效应泊松模型的条件和无条件估计 
会产生相同的系数和标准误。不幸的是，标准误常常因为过离散问题而严重有 
偏。在 Stata 中，我用了自助标准误，以矫正过离散问题，其他一些软件包有计 
算上更简单的方法。 

解决过离散问题更好的办法是估计一个带有过离散参数的负二项回归模 
型。不过，这种模型不能用条件最大似然法进行估计。无条件最大似然估计只 
要使用虚拟变量作为固定效应，在任何负二项回归软件中都能完成。 

混合模型法在允许对时变自变量的固定效应系数进行估计的同时，也能对 
非时变自变量的效应进行估计。正如我们在第2章和第3章已经看到的那样， 
每个时变变量被分解成为两部分 :一个 分个体的均值(个体内均值)和一个相对 
于孩均值的离差。回归模型包括这两套变量，同时还有非时变自变量。个体内 
的相依问题可以通过 GEE 估计或随机效应模型的最大似然估计进行处理。 



第 5 章 I 事件史数据的固定效应模型 


事件史分析这一名字指称的是一套被设计用来描述、解释或预测事件发生的统 
计学方法。在社会科学之外，这些方法通常被称作生存分析，主要是因为它们首先被 
生物统计学家发展出来，以分析死亡事件的发生。碰巧这些方法非常适合用来分析 
大量的社会现象，如出生、结婚、离婚、失业、晋升、被捕、迁移和反抗等。事件史分析 
还有很多其他名称，包括失败时间分析 (failure time analysis ) 、风险分析 (hazard 
analysis )、 转换分析 (transition analysis ) 和持续期分析 (duration analysis )。 

一 般而言，一个事件可以被定义为发生在特定时刻的性质 (qualitative) 改 
变。若要应用事件史方法，就需要有事件史数据，也就是一种记录着事件何时 
发生在某个体或某些样本个体身上的纵贯记录。例如，让一群被抽作样本的妇 
女汇报她们所生的全部小孩的出生日期，你就可以得到一套可以用来分析出生 
事件 (occurrence of births) 的事件史数据。当然，如果你想进行因果分析或预 
测分析，你还得测量一些可能的解释变量，例如妇女自身的出生日期、教育水 
平、家庭收入、婚姻状态等等。 

下面我们将这个例子变得更加具体。在1995年的全国家庭成长调查 
(National Survey of Family Growth , NSFG ) 中，一个能够代表全美国妇女的样 
本被要求报告她们曾经生育的所有小孩的出生信息 ( www . cdc . gov / nchs / nsfg . 
htm )。 这里使用的是该数据的一个子样本，包括6911个至少生育过一胎的妇 
女。这些妇女总共报告了 14932次活产事件。对每个生育事件，我都计算了出 
生间隔 (birth interval )， 标为 DUR : 从目前这次生育到下一次生育的时间长度 
(以月计算），如果没有后续生育被观察到，则为到调查当日的时间长度。这些 
出生间隔的潜在解释变量包括刻画当前生育特征的几个 变量： 
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PREGORDR 生育次序（即胎次 )(1 到 15) 

MARRIED 如果生育时已婚则为1，否则为0 
AGE 出生时母亲的年龄（以年计算） 

PASST 生产费用全部或部分由政府援助基金（ public assistance 

funds ) 支付则1，否则为0 

NOBREAST 如果母亲不用母乳喂养小孩则为1，否则为0 
LBW 如果所生为低体重儿则为1，否则为0 
CAWSAR 如果生产为剖腹产 (Caesarian section ) 则为1，否则为0 
MULTIPLE 如果是多胞胎则为1，否则为0 

另外还有一个变量 COLLEGE ， 如果妇女受过一些大学教育(在调查时)则 
等于1，没有受过大学教育则等于0;再有一个变量 BIRTH ， 如果出生间隔是以 

另一次生育事件结束的则为1，如果是由该调查作为结束的则为0-个删失 

间隔。这一数据集有6911个删失间隔。每个妇女都有一个删失间隔，因为每个 
人的最后一个间隔都是被调查访问结束的。最后，变量 CASEID 是一个 ID 变 
量，其取值在同一个妇女的所有生育间隔记录中都是相同的。我们的目标是对 
生育间隔估计一个回归模型。 

COX 回归 

分析事件史数据最流行的方法是 Cox 回归，这是以发展了比例风险模型 
(proportional hazards model ) 及估计这一模型的偏似然方法 (partial likelihood 
method ) 的 David Cox 来命名的。在进行固定效应分析之前，我简单回顾一下 
这种方法。 

Cox 回归不是直接对间隔长度进行建模，其因变量是事件发生的风险 
( hazard ) 或瞬间的可能性。对于可重复发生事件，风险的定义如 下:令 凡⑴为 
个体 i 在时间£以前发生的事件数，那么个体 i 在时间£的风险可以这样 给定： 
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hiU) 


= lim 

0 


Pr LN^t + ^ O - NiU ) = 1] 


[5,1] 


用文字来说，这个等式表达的是我们先考虑在某个极短的时间间隔以内 
一个新事件发生的概率。再构建这一概率对心的比率，然后取 AT 趋近于0时 
这一比率的极限。对于重复发生事件，这一风险函数又被称为强度函数 ( inten ¬ 


sity function ) 。 

接下来，我们将这一风险建模成为解释变量的函数。令⑴表示个体 i 发 
生第 A 次事件的风险，那么比例风险模型是如此给 定的： 

loghik ( t ) = fi[t — tuk-D^+^JCik [5. 2] 

其中 • ra 是能够在不同个体间及事件间发生变动的自变量列向量，卢是系数行向 
量是第 a — 1) 次事件发生的 时间# ( • )是最近一次事件发生以来的时 
间长度的未定函数 (unspecified function )。 在这一模型中，我们假定 〆 • ）对样 
本中的每一个个体都是同一个函数。 

偏似然估计的一个显著特征，是它可以在不对函数//做任何假定的情况下 
对戶进行估计。至于它是如何实现这一点的，可以参见笔者的另一本书 （ Alli ¬ 
son ， 1995)。在 Stata 中， Cox 回归是通过命令 stcox 完成的。表 5.1( 头两列数 

表 S .1 常规模型的 Co X 回归估计 & 



系数 

常规标准误 

稳健标准误 

风险比率 
(Hazard Ratio) 

PREGORDR 

一 0.163 

0. 011 

0. 016 

0 . 849 

AGE 

一 0. 065 

0. 003 

0. 003 

0. 937 

MARRIED 

0. 221 

0. 029 

0. 030 

1. 247 

PASST 

0.137 

0. 029 

0. 029 

1. 147 

NOBREAST 

-0. 270 

0. 023 

0. 023 

0. 763 

LBW 

— 0, 003 

a 042 

0_ 043 

0. 997 

CAESAR 

— 0.116 

0. 030 

0. 028 

0. 890 

MULTIPLE 

~0. 702 

0. 143 

0. 144 

0. 495 

COLLEGE 

— 0. 207 

0. 026 

0. 026 

0. 813 


注 8 除 LBW 的多值大于 a 90 外，其他系数的户值都小于 a 01 。 
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字)给出了对上述出生间隔数据拟合 Cox 模型所得到的结果，这里将所有的出生 
间隔都当做相互独立的观察，也就是说，将每一个出生间隔都看作是来自总体中 
的不同妇女。除低出生体重外，所有变量对下一次生育的风险都有高度显著的影 
响。已婚或受政府援助的妇女有更高的生育风险。其他变量的系数都是负的。 

要想得到有关这些结果的更具体解释，查看最后一列（标有“风险比” 
[hazard ratio ]) 会有很大的帮助，它给出了系数估计值的指数幂。风险比解释 
起来几乎和 logistic 回归里的发生比率完全一样。例如 MARRIED 的风险比为 
1. 25。这意味着一个生育时已结婚的妇女再次生育的风险比没结婚的大25% 
(在控制了模型中的其他变量后)。 MULTIPLE 的风险比是 0. 495,这意味着如 
果一个妇女生的是双胞胎，那其再次生育的风险将减半。对于 AGE 来说，风险 
比是 0. 937,这表示(作为)母亲，其年龄每增加一岁，将使下一次生育的风险减 
小 100* (1 — 0. 937) = 6.3%。 

不过，上述结论有潜在的问题。有69%的妇女每人至少为这一数据集提供 
了两个生育间隔，因此怀疑同一个人的多条观察之间存在一定相关是合理的。 
具体而言，很自然地就能想到，可能某些妇女的生育间隔就一直都比较短，而另 
一些的生育间隔一直都比较长。不考虑这种相依性将严重低估标准误和 P 值。 

幸运的是，使用在前面章节中用过的稳健方差估计法修正标准误很容易 
(Therneau 8^ Grambsch , 2000)。通过 vce(cluster caseid ) 获得的稳健标准误呈 
现在表 5. 1的第3列中。此处绝大部分的修正都很小，只有 PREGORDR ® 的 
修正标准误例外，它比未修正时要大37%。这样产生的修正 z 统计量只有未修 
正时的一半，不过仍然高度显著。 


带固定效应的 Cox 回归 


现在我们已做好准备将固定效应加到 Cox 回归模型中。与往常一样，这将 
允许我们控制所有稳定的预测变量，并处理好重复观察之间的相依问题。与此 


①此处原书为 PREGORDER ， 但根据上下文及输出表格可知应该为 PREGORDR fl ——译者注 
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前的几个固定效应模型一样，^代表所有稳定的自变量的综合作用。我们的固 
定效应回归模型的第一形 式是： 

\ ogh ik { t ) = +ai [5. 3] 

针对我们的生育间隔数据，方程 5. 3 如何才能被估计出来呢？ 一种想当然 
的做法是，将标识每个妇女(除其中一个外)的虚拟变量(组)放到模型里去。这 
种方法在线性模型、泊松模型以及负二项模型中很奏效，但在这里会遇到严重 
的困难。首先,估计一个带有6910个虚拟变量的 Cox 回归在实际操作上就是 
个问题 

更为根本性的麻烦在于估计如此众多的“伴随性参数”导致的可能偏差。 
在前面几章中，我们发现这种偏差在 logistic 回归模型中可能非常严重，但在泊 
松或负二项回归模型中并不如此。在其他地方 ( Allison ， 2002)，我已经 指出： 
Cox 模型在这一点上与 logistic 模型很像。当每个人的平均间隔数少于3个时， 
使用虚拟变量法估计固定效应模型所产生的回归系数偏差(偏离 0) 约为30%— 
90%，偏差大小取决于删失的水平(删失案例所占比例越高，产生的膨胀越大)。 

幸好，另外有一种方法实行起来简单而且非常有效。像在 logistic 回归和 
泊松回归中使用的条件似然法，因为虚拟变量的系数并没有真正被估计出来而 
是被从似然方程中消除了。首先，我们调整方程 5. 3,通过定义我们得到 

= ~~ ] + ai 

\ ogh ik it )= "丄 t — ti ( k - i ) J - hj 3 a：ik [5. 4] 

在这一方程中，固定效应 ^ 被整合进了时间的未定函数中，这一函数现在 
被允许在每个个体上都不一样。注意，方程 5. 4与方程 5. 2中的常规 Cox 模型 
的唯一不同之处就在于//的下标 i 。这样，每个个体都有其自身的风险函数，这 
比只允许每个个体有自己的截距来得更加宽松。 

方程 5 . 4 可以通过标准的 Cox 回归程序和广泛可得的分层选项 (option of 
stratification) 进行估计。分层(模型)允许不同的子群体有不同的基准风险函数 
(baseline hazard function) ， 但同时限定系数在各个子群体中相同。它是通过为 
每个子群体建立一个偏似然函数，将所有这些似然函数连乘起来，然后在考虑 
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系数向量 iS ①的情况下，将结果似然函数最大化来完成的。利用 Stata 中的 
stcox 命令，分层可以通过设置 strataGaseid ) 选项实现，这将意味着6911个妇 
女每个人都被当做一个独立的层。看起来层的数量似乎非常大，但 stcox 能够 
轻松搞定。 

表 5. 2中模型1的结果，呈现出与表 5. 1不同的地方，这些差别值得注意。 
第一， COLLEGE 没有任何报告信息。像大多数固定效应方法（除了混合模型 
法)一样，我们不能估计那些在个体内不存在变化的变量的系数。从 COLLEGE 
往上，我们看到多胞胎的系数与前面的估计差不多一样。但变量 CAESAR 的系数 
有些变小，并且统计上不再显著。低出生体重在前面是高度不显著，但这里夕值 
小于 0. 01。 LBW 的风险比告诉我们，所生为低出生体重儿将使下一次生育的风 
险下降了 21%。母乳喂养的作用不管在大小还是在显著性上都有所下降。政府 
支持在前面高度显著，但在这里一点也不显著。婚姻状态的影响在这里差不多一 
样。年龄在统计上不再显著。而怀孕胎次的影响比前面要大得多，无论在大小还 
是在统计显著性上都如此。每多生一胎将会使生育¥—胎的风险下降50%。 


表 5. 2固定效应模型的 Cox 回归估计 




模型 1 


模型 2 

系数 

标准误 

风险比率 

系数 

标准误 

PREGORDR 

-0_ 71V* 

0. 034 

0. 491 

—0. 712^ 

0_ 034 

AGE 

0_ 007 

0. 011 

1_ 007 

0. 007 

0. 011 

MARRIED 

0_ 181 M 

0. 070 

L 199 

0.182** 

0. 070 

PASST 

0. 077 

0.069 

1. 080 

0. 076 

0. 069 

NOBREAST 

-0.128* 

0. 060 

0. 879 

0. 043 

0.100 

LBW 

0. 237 _ 

0.081 

0.789 

—0. 243** 

0-081 

CAESAR 

一 a 079 

0. 093 

0.923 

-0. 080 

0.093 

MULTIPLE 

—0. 607 M 

0.218 

0. 545 

0. 590** 

0.219 

COLLEGE 

( 被剔除） 



( 被 剔除〉 


COLLBREAST 




—0. 267* 

0. 125 


注： *0.01</»<0.05, **^<0. 0l o 


①即保证在各子群体中相同。 一 ~译者注 
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为什么固定效应估计会如此不同于常规 Cox 回归估计的结果呢？与所有 
固定效应模型一样，这一模型控制了所有稳定的自变量，因此早先表 5. 1中的有 
些结果可能是虚假的。如果非得让我在表 5. 1的常规结果与表 5. 2的固定效应 
结果之间做出选择的话，我会断然地选择后者。我们脑子里必须记住的是，在 
此处的分析中，每个妇女不同的出生间隔是与其自身进行比较。对于每一个妇 
女，我们的疑问是 :为什 么她的岀生间隔中有一些会比另一些长或者短。例如， 
是因为她在某些出生间隔中处于结婚状态，而在另外一些未处于结婚状态吗？ 
这一方法得出的答案，与考察为何有的妇女比另一些妇女倾向于有更长的出生 
间隔所得的答案是完全不同的。 

固定效应模型的这一方面与 PREGORDR 变量尤其相关。在常规 Cox 回 
归中，这一变量对风险似乎有虚假的正向作用。在一个固定的时间区间内，生 
育次数多的妇女其生育间隔必然小。但通过固定效应分析，我们能够移除这一 
人为因素，这就是使负系数比原来大很多的原因。 

和线性模型及 logistic 模型一样，尽管固定效应模型不能估计非时变变量 
如 COLLEGE 的作用，但它能够估计非时变变量与其他变量之间的交互作用。 
例如，我们可以估计一个含有 COLLEGE 与 NOBREAST 交互项的模型。这只 
需纳入 COLLEGE 和 NOBREAST 的乘积项作为预测变量之一就可以了。相 
应的结果在表 5. 2的模型2中。可以看到，这一交互项在 0. 03水平上统计显 
著。但如何对其进行解释呢？ NOBREAST 的“主效应”代表当 COLLEGE = 0 
时，也就说在未接受大学教育的妇女中该变量的作用。这个系数是正的但高度 
不显著。而 NOBREAT 在受过大学教育的妇女中的作用等于上述主效应加上 
交互项（一 0. 2659 + 0. 0421 =- 0. 22) 0 使用 test 命令，我们可以发现两者之和 
显著不等于0。因此，结论是在受过大学教育的妇女中，母乳喂养会增加随后一 
次生育的风险，但在其他妇女中这种影响不存在。 

Stata 也能估计随机效应 Cox 模型，这一模型同样可用方程 5. 3设置，但假 
定&服从伽马分布且与^独立。这种类型的模型通常被称为“共享脆弱性 
(shared frailty )” 模型，其中& (或者其指数幂形式)被描述为脆弱成分 (frailty 
term )。 其意思是说，有些个体比其他个体更加脆弱，因而更有可能经历该事 
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件。 Stcox 命令中用于估计此种模型的选项是 shared ( caseid )。 不过， Stata 在 
试图对本出生间隔例子估计这一模型时遭遇了计算上的失败 （computational 
failure ) ，这显然是样本规模(过大)造成的。 

但随机效应001!^啦 2 模型的运算取得了成功(用 streg 命令完成），这一模 
型是方程 5. 3的特殊形式，方程中的 •) 被设定为一个线性函数。模型结果 
呈现在表 5. 3中。各项结果与表 5. 1中常规 Cox 模型的估计非常相似，即使没 
有进行稳健标准误修正。 在& 的方差估计值不显著地区别于0的情况下，这并 
不奇怪。当然，表 5. 2中的固定效应估计显著地不同于随机效应估计，再一次证 
明控制住未被观测到的异质性非常重要，即使在随机效应模型未能提供此种异 


质性存在的任何证据时也是如此。 

表 5. 3随机效应 Gompertz 模型估计结果 a 



系数 

常规标准误 

稳健标准误 

风险比率 

PREGORDR 

—0. 163 

0.011 

0. 016 

0, 849 

AGE 

— 0. 065 

0. 003 

0. 003 

0. 937 

MARRIED 

0. 221 

0.029 

0. 030 

1. 247 

PASST 

0,137 

0_ 029 

0. 029 

1,147 

NOBREAST 

-0. 270 

0. 023 

0. 023 

0. 763 

LBW 

— 0. 003 

0. 042 

0. 043 

0. 997 

CAESAR 

-0. 116 

0. 030 

0. 028 

0. 890 

MULTIPLE 

-o. 702 

0. 143 

0. 144 

0. 495 

COLLEGE 

-0. 207 

0. 026 

0. 026 

0. 813 


注 8 除 LBW 的 /> 值大于 0. 90 外，其他所有系数的 /> 值都小于 0. 01 。 


附加说明 


尽管固定效应 Cox 模型有上述吸引力，但它同样有常见的缺陷。和其他固 


定效应方法一样，与常规分析相比，固定效应 Cox 模型的统计力会大大降低。 
在本例中，只有一个生育间隔的妇女都被排除在分析之外，因为这些间隔无法 
与其他间隔进行比较。这排除了 2109个生育间隔。第二，在只有两个生育间隔 
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的妇女中，如果第二个生育间隔（总是有删失的)小于第一个，那两个生育间隔 
都会被排除在分析之外。原因如下。假定第一个生育间隔是 28 个月，而第二个 
间隔是 20 个月。在建构发生于第 28 个月的生育事件的偏似然函数时，计算公 
式将在相同的时间点寻找其他“处于风险中”的间隔（来自同一个妇女 >(looks 
for other intervals that are “at risk” of the event at that same time) 0 但另 一 个 
生育间隔在第 20 个月时删失了，这样，对于那个生育间隔，该妇女已经不再处于 
在第 28 个月发生可观察生育事件的风险中了 (the woman is no longer at risk of 
an observable birth at 28 months) 0 因此，前述出生没有对象可进行比较，该妇 
女也就被排除在偏似然函数之外。在 NSFG 数据中，此种间隔的排除又导致 
1468 个案例被损失掉。 

最后, B 卩使对那些保留下来的观察记录，固定效应方法也根本就没有考虑不 
同妇女间的变异信息，而只使用了妇女内变异。因此，如果某个协变量在不同妇 
女之间存在很大差异，而每个妇女历时变化很小时，那么该变量的系数将不能被 
可靠地估计出来。例如，变量 PASST 的80%的变异在于不同妇女之间，属于妇女 
内的变异只有20%。因此毫不奇怪，表 5. 2中其系数的标准误，与表 5. 1相比，是 
后者的两倍多，因为后者的标准误是基于妇女间及妇女内两种变异计算出来的。 

除了常见的固定效应模型的不足之外，固定效应 Cox 回归还容易受特定类 
型的变量的影响。这些问题最有可能在出生间隔研究中出现的这类数据结构 
下发生。在这种数据结构下，每个个体被观察了一段固定的时间，在这一段时 
间内,可能有多次事件发生，但只有最后一个间隔是删失的。张伯伦 ( Chamber - 
lain ， 1985) 认为这种结构违反了似然估计的基本条件，因为一个间隔被删失的 
可能性取决于前一个间隔的长度。 

在一个仿真研究中 ( Allison ， 1996)，我已经指出这种违背对于绝大多数自 
变量不会产生严重的问题，但在估计刻画以往事件特征的变量的系数时会导致 
偏差。具体地讲，固定效应偏似然估计倾向于让以往事件的数量、以往间隔的 
长度对风险产生负的影响，即使这些变量并没有真正的影响。这无疑与表 5. 2 
中的结果相一致，表中胎次对下一次生育的风险有很强的副作用。这一问题在 
每个个体的平均事件数少，删失间隔在所有间隔中所占比例高的情况下最严 
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重。不过，前面我已经指出，对此前事件数的影响的估计，常规 Cox 回归的偏差 
可能更大，只是偏向另外一个方向。 

Cox 回归混合模型法 

在前面的章节中，我们看到可以通过将时变自变量分解成为具体单位的均 
值以及相对这些均值的离差，然后将所有这些变量纳入常规回归分析，可能的 
话，再修正同一个体的多次观察之间的相依性就能复制或近似地模拟固定效应 
分析的结果。不过，由于某种并不太清楚的原因，这一方法看起来在 Cox 回归 
中不大好使。例如，如果我们将混合法用于这一生育间隔数据，有几个变量的 
系数及值与表 5. 2中的存在天壤之别。我对 Cox 回归混合法的仿真研究也 
很让人沮丧。因此，我无法为事件史分析推荐、介绍混合模型法。 


非重复性事件的固定效应事件史法 

固定效应 Cox 回归要求样本中至少有一些个体经历一个以上的事件，这样 
个体内的比较才成为可能。显然，这种方法无法应用于不可重复的事件，例如 
死亡。不过，在某些条件下,通过应用条件 logistic 回归，并把时间看作离散的， 
可能可以对非重复性事件进行固定效应分析。在流行病学文献中，这类分析叫 
作病例交叉研究 ( case~crossover study ) ( Maclure , 1991) ， 尽管我这里描述的实 
现方式与流行病学通常所做的存在一些差异。 

与通常一样，我将从一个经验的例子开始。设想我们要回答下面的 问题: 
妻子的去世是否会增加丈夫去世的风险？这是一个很难有信心回答的难题，因 
为丈夫的去世与妻子的去世之间的任何相关都可能是共同的环境特征影响下 
的结果。他们中的大多数都已经在相同的住所 （ house )、 相同的邻里环境 
( neighborhood ) 中共同生活了很长一段时期。而且，他们倾向于来自相同的社 
会经济背景，有着类似的生活方式 ( lifestyles )。 除非我们能够控制这些共同点 
( commonalities )， 否则任何观察到的一个配偶的死亡与其另外一个的相关都有 
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可能是虚假的。因此，非常需要将固定效应分析作为一种方法，来控制所有稳 
定的、未被测量的解释变量。 

为了回答这一问题，我将分析一个含有49990对已婚夫妇的数据，数据中夫 
妇双方在1993年1月1日时都还健在，并且都至少已有68岁。截至1994 
年5月30日期间，已亡夫妇的死亡日期都是已知的。在这17个月期间,丈夫中 
有5769人死亡，而妻子中有1918人过世。我们将时间看作是由离散的单位组 
成的，在这里是以日计算，列举岀来就是£=1，2, 3……令九表示在前一天仍 
然活着的条件下丈夫〗在£日死亡的概率，再令 = 如果妻子 i 在 t 日还活 
着的话，否则为0。 

我们将用一个 logistic 回归模型来表示妻子的存活状况对其丈夫死亡的概 
率的 影响： 


log(i ) =必 + yt u [5. 5] 

其中穴表示时间对死亡的对数发生比的线性作用，表示所有未被测量的在各 
个时期保持稳定的变量的固定效应。 注意: 模型中没有放入非时变预测变量， 
因为它们的作用已经被整合进了 m 项中。 

现在我们试图用第三章中描述过的条件最大似然法对这一模型进行估计， 
这种方法将所 有的& 都从估计方程中消掉。下面是这一数据集的构成方式。 
对于去世了的男人，夫妇们被观察的每一天都创建了一条单独的观察记录，从 
第一天 （1993 年1月1日）到去世那天为止。对于这些夫妻-日记录 （couple 
days )， 因变量 I ，被编码为0,如果该男性在当天还健在 的话; 如果在那一天他 
去世了，则编码为1。这样，一个在1993年6月1日去世的男性将提供152个夫 
妻 -日； 其中151个 I 的取值为0,最后一个的取值为1。解释变量在妻子活 
着的日子里都被编码为0,妻子已经过世了的日子里都被编码为1。尚未去世的 
男性没有创建记录，因为在二分结果变量的固定效应分析中，没有发生变化的 
个体对似然函数没有任何贡献。本工作数据中夫妻-日的总数为1377282。和 
第3章中描述的一样，模型可以通过 Stata 的 xtlogit 或 clogit 命令进行估计。 

不幸的是，对于这两个命令，用来使似然函数最大化的计算公式都不能收 




78 


高鎩回归分析 


敛。对数似然值很怏就变成0,且迭代序列延续不断、没个尽头。收敛失败的原 
因在于每对夫妇那串观察记录的因变量都是由一连串0跟上一个1组成的 。也 
就是说，事件总是发生在最后一个观察单元。因此，时间或时间的任何单调递 
增函数(例如时间的对数，或时间的平方根)都将完美地预测该夫妇的结果，从 
而无法得到孩协变量或模型中任何其他协变量的最大似然估计。在 logistic 回 
归文献中，这一问题被叫作完全分离 （complete separation ) (Albert & Ander ¬ 
son , 1984； Allison ，2004) 。[ 23 ] 

事实上，对于我们这个死亡事件的例子，不收敛问题并不局限于时间变量 
的原因。即使把时间移出模型，我们得到的仍是不收敛(尽管现在的问题不是 
完全分离而是半完全分离 [ quasi-complete separation ]) 。因为，即妻子是否 
死亡这一虚拟变量，随着时间推延而增加，但从不减小，它完美地预测了最后一 
天的死亡事件的发生。因此，它的系数在计算公式每迭代一次时都会变得 
更大。 

克服这个问题的一种方法是把 W , 改进成为一个标识，指示妻子是否还在 
世，比方说，过去60天内过世。当妻子去世时，这个协变量从0变化为1，但在 
第60天之后又变回成为 0( 如果这个丈夫还活着的话)。通过估计时间窗口大 
小不同的模型 (model with varying windows of time ) 可以提供有用的信息，描述 
妻子死亡的影响如何开始、到达顶峰以及结束。 

表 5. 4的上半部分同时给出了使用几个不同时间窗口的情况下(但没有包 
括时间本身的影响），衡量妻子的过世对于丈夫去世的影响的发生比率的固定 
效应估计。在所有情况下，发生比率都超过 1. 0,并且60天间隔和30天间隔下 
都统计 显著。对于后一种情况，在妻子死后30天内，丈夫死亡的发生比是其他 
时间发生比的2倍®。表 5. 4的下半部分给出了常规 logistic 回归得到的发生 
比率，没有控制稳定不变的、未被观察的协变量。与上半部分相比，这一部分的 
发生比率都要小，而 A 值都要高。 


①这里实际上是将妻子死后30天内丈夫死亡的发生比与其他时间(包括妻子死前或没死，以及 
妻子死了 30天之后3种情况)丈夫死亡的发生比进行比较。一~-译者注 
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表5,4在不同时段内以妻子的死亡事件对丈夫的死亡进行预测的发生比率 





妻子死亡多少天以内 




15 天 

30 天 

60 天 

90 天 

120 天 

固定效应估计 

风险比率 

1,26 

1.96 

1.61 

1.27 

1. 26 

P 值 

0. 54 

0. 006 

0.03 

0. 24 

0. 25 

常规估计 

风险比率 

1. 13 

1. 56 

1.21 

0. 97 

0. 93 

fi 值 

0.71 

0. 04 

0.29 

0. 87 

0. 61 


尽管这些结论非常有趣，但危险在于，模型没有对历时的变化进行控制。 
这不仅仅是一个技术问题，还是一个能够对从病例交叉研究中得出的任何结论 
都构成严重危害的问题 ( Creenland ， 1996； Suissa , 1995)。对于我们的例子来 
说，只要妻子的死亡发生率有随着观察期延长而增加的趋势，就有可能导致丈 
夫的死亡与妻子的死亡（不管如何编码）之间的虚假相关。直观地讲，原因在 
于:丈 夫的死亡总是出现在每对夫妇的观察序列的结尾，因此，任何倾向于随着 
时间而增加的变量，看起来都会增加丈夫死亡的概率。 

现在我们来考虑另外一种固定效应模型，它看起来能够解决因未控制时间 
的影响而造成的问题。休莎 ( Suissa ) 发明了一种方法，并把它叫作“案例一时 
间一控制”设计，这种方法的关键创新之处，在于将条件 logit 模型中的因变量与 
自变量进行调换的计算策略 (computational device )。 这使得在模型中纳入对于 
时间的控制成为可能，而这种控制在病例交叉法中是无法实现的。 

众所周知，当因变量和自变量都是二分变量时，发生比率是对称的—— 
调换因变量和自变量将得到相同的结果，即使模型中还有其他自变量。在案 
例一时间一控制法中，工作因变量 (the working dependent variable ) 是二分协变 
量——在我们这个例子中，是妻子是否在过去一段日子里死亡。自变量是标识 
事件(丈夫的死亡)是否在给定日期发生的虚拟变量，以及时间的某种适当形 
式，如一个线性函数。同样，估计的还是一个条件 logistic 回归,且将每对夫妇 
都单独作为一层对待。在这一方程中，将时间作为协变量纳入不存在问题，因 
为工作因变量不是时间的单调函数。 





在休莎方法的方程式中，有必要纳人所有个体的数据，包括经历了事件的 
人以及被删失了的人。不过，他的模型只是针对每个个体仅有两个时间点的数 
据发展出来的 ，一 个事件时段 、一 个删失时段。在那种情况下，如果样本仅仅局 
限于经历了事件的人，那协变效应和时间效应将完全混合在一起。而删失案例 
则能够提供协变量受制于时间的有关信息，这些信息与事件的发生不存在 
混淆。 

不过，我们的数据集(有可能很多其他数据也)在不同时点上对每个个体有 
多个“控制”。这消除了时间与事件发生(丈夫的死亡)之间的完全混合，使得我 
们可以将案例一时间一控制法只用于未被删失的案例。在很难或无法收集到 
未经历事件的人们的信息时，这是一个极大的好处。如果估计时未包括删失案 
例，这个模型的唯一限制是，我们无法估计一个时间影响完全随意的模型，也就 
是说，模型中不能带有标识每个时点的虚拟变量。 

当然，如果删失案例的信息是可得的(如在我们这个数据集中），那么纳入 
它们，可以得到更准确的对时间的影响的估计。不过，即使删失案例是可得的， 
将分析限制于事件经历者仍具有潜在的优势。案例一时间一控制法假定协变 
量对于时间的依赖（即时间对于协变量的影响)在经历了及未经历事件的人身 
上是一样的，这一点为人所批评 ( Greenland ， 1996)。如果分析的数据仅限于事 
件的经历者，那此种批评也就毫无力道了。 

对于死亡事件数据，工作数据集与前面的一样，从开始到丈夫死亡或者删 
失当天，每个观察者每天都有一条记录。因为条件 logistic 回归要求每个条件 
层 (conditioning stratum ) 的因变量都有所变动，我们可以将妻子没有在丈夫之 
前死亡的夫妻案例删除，而不存在信息损失。 

本工作数据集中有39942个夫妻-日，仅来自于126对夫妇。这是丈夫死亡 
且妻子先于丈夫死亡的夫妻数。尽管这只是原样本49990对夫妻中很小的一部 
分，但使用固定效应方法时，只有这些人含有妻子的死亡对丈夫死亡的影响的 
信息。这是一个问题么？如果同一个模型(带着同样的系数)适用于总体中的 
每一个人，那就不是一个问题。但如果不同子群体的模型不一样，那从这126对 
夫妻获得的结果就只能准确地描述他们而已，但不能描述整个总体。 
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工作模型的定义如下。令/^表示丈夫；在£天是否死亡的虚拟变量，而 
Pn 表示在£天之前的一定时日内妻子死亡的概率。 Logistic 回归模 型为： 

+ p 2 t +^ [5. 6] 

表 5. 5以妻子之死对丈夫的死亡进行预测所得不同时段内的风险比率 
(案例一时间一控制法） 



15 天 

30 天 

60 天 

90 天 

120 天 

风险比率 

1. 26 

2.08 

1.74 

1.28 

1.11 

fi 值 

0. 54 

<0, 004 

0.01 

0.25 

0. 63 


尽管也可以使用其他函数，但这一模型允许纳入时间的二次项作用 （ quad ¬ 
ratic dependence on time ) 0 

表 5. 5 给出了不同时间窗口下发生比率的估计。结果与表 5. 4中的非常相 
像，后者使用的是病例-交叉法。证据再次表明妻子的死亡对于丈夫死亡的风 
险的影响受到时间的限制，妻子死亡两个月后其影响将大大降低。 

尽管我们的工作因变量是妻子的死亡,但发生比率得解释成妻子的死亡对 
于丈夫死亡的发生比的影响。这是由于观察的时间顺序的原因——妻子的死 
亡总是发生在丈夫之前。如果我们的目标是估计丈夫的死亡对于妻子死亡的 
影响，那我们得构建一个完全不同的数据集，包含妻子死前的夫妻-日记录，而 
不是妻子死后的。 

在这个例子里，我们只估计了一个二分协变量(妻子在一定的时日内的死 
亡)对于不可重复事件(丈夫的死亡)的影响。这种方法允许我们控制所有固定 
变量。但是，假设我们想控制时变自变量，如吸烟状况。仿真研究 (Allison & 
Christakis , 2006) 发现，附加解释因素作为自变量，可以直接纳入等式 5. 6所设 
定的 logistic 回归模型。尽管附加自变量的系数不是这些变量对丈夫死亡的影 
响的无偏估计，但纳入这些解释因素后，能够得到妻子的死亡对于丈夫的死亡 
的影响(方程 5. 6中的的的近似无偏估计。假如我们要估计吸烟状况对丈夫的 
死亡的影响，那我们就得使吸烟的概率成为方程 5. 6中的因变量，另外有可能再 
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纳人妻子的存活状态作为协变量。即使吸烟状态有两个以上类别，这种程序仍 
然有效，只是这时等式5, 6需要被设定成为一个多分类 logistic 回归。不过，我 
听说没有办法把案例-时间-控制法推广到对定量自变量的影响进行估计。 

总结 

事件史数据的固定效应回归分析通常要求每个个体有多个的、重复的事 
件。与我们在 logistic 回归中看到的一样，使用虚拟变量法估计固定效应，常常 
会导致对于其他变量的系数的有偏估计。这一伴随性参数问题在使用 Cox 回 
归时可能被避免，这种方法利用分层法将固定效应从偏似然函数中消除，即使 
是在分层数目很大的情况下仍然具有计算效率。在大多数情况下，分层法都能 
产生近似无偏的估计。 

与其他固定效应方法一样，分层 Cox 回归在统计功效上也会遭受巨大的 
损失。自然的，只有一条观察记录的个体不能给分析提供任何信息。即使一 
个个体有一条删失记录和一条非删失记录，只要删失记录的时间区间相对较 
短，这个个体的两条记录也会被剔除在分析之外。最后，只有个体内的变异 
信息被用来估计各个系数。由于一些目前我们还不太清楚的原因，混合模型 
法——它在线性、 logistic 和计数数据回归中运行良好——在 Cox 回归中无法 
产生正确的结果。 

尝试对非重复性事件进行固定效应回归分析会遇到严重的困难。基本策 
略是把时间看作是离散的，然后分别针对每个人的各个被观察的离散时间点创 
建一条独立的记录，从开始观察一直到事件发生或者删失时为止。对于每一条 
记录，都有一个二分因变量，如果事件在该时间点发生则编码为1，否则编码为 
0。最后一步是，对这一因变量估计一个条件 logistic 回归，并将每个个体单独 
作为一层，而自变量为在不同时点上有所变化的变量。这种具有吸引力的方法 
的一个根本问题是，如果时间(或者时间的任何单调函数)被作为解释变量，那 
模型会因为分离问题 ( separation ) 而得不到收敛。原因在于:事件总是发生在每 
个个体的观察序列的末尾，从而使得时间能够完全预测事件的发生。 
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尽管未纳人时间(变量)的模型确实能够被估计出来，但因为时间对于(事 
件)风险以及自变量的影响未被控制住可能是有偏的。一种解决途径是案例 - 
时间-控制法，这种方法好像对估计分类协变量对于风险的影响很管用。这种 
方法的创新之处在于调换了条件 logistic 回归中因变量与自变量的角色，从而 
使得在模型中纳入作为协变量的时间成为可能。 



第 6 章 I 固定效应结构方程模型 


在第2章中，我们考虑了几种估计线性固定效应回归模型的不同方法。在 
这一章，我们将展示如何把固定效应回归当作带一个潜变量的线性结构方程模 
型来估计。为什么我们还需要另外一种方法来估计同一个模型呢？答案 是:通 
过将模型置于一种结构方程框架，我们能够得到一些通过常规计算方法难以或 
者不能得到的结果。具体地讲，我们 可以： 

(1) 估计固定效应和随机效应的折中模型， 

(2) 构建对固定效应与随机效应进行比较的似然比检验， 

(3) 估计两个反应变量间存在相互作用的固定效应模型， 

(4) 估计反应变量为时滞值的固定效应模型， 

(5) 估计潜变量带有多个指标的模型。 

我之所以在这里为这种方法单辟一章，是因为其数据结构及概念框架与第 
2章中大多数方法所用的非常不一样。我首先将解释如何用结构方程软件估计 
第2章中描述过的随机效应模型。然后，我们会考察如何对这种模型进行调整， 
以形成固定效应模型。 

随机效应作为潜变量的模型 

在第2章中,随机效应模型被设 置为： 


yu = a +px it + yzi +ai +e it 


[ 6 . 1 ] 
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其中％是个体；在时间£的反应变量取值， A 是时变自变量向量， A 为非时变 
自变量向量， a , 表示随机效应，〜为随机扰动项。我们假定&和 h 代表独立正 
态分布变量，其均值为0,方差恒定。我们还假定，至少是在现在，这些随机成分 
都与 A 及 z , 相互独立。 

众所周知 ( Muth 6 n ， 1994)，如方程 6. 1所示的随机效应模型可以用结构方 
程模型 ( SEM ) 来表示，后者可以用众多被设计用来估计此种模型的软件（如 
LISREL ， EQS ， MX , Mplus ， 或者 Amos ) 之一进行估计。不幸的是， Stata 中没 
有估计这种模型的命令。[ 25 ]在这里，我是用 MplusCwww . statmodel . com ) 来估 
计本章讨论的模型的。从概念上讲，我们认为方程 6. 1给每个时间点都设定了 
单独的公式，但限定各个时点对应的回归系数相同。随机项 a 和 e 被当成潜变 
量。不同时点有不同的 e ， 但是各个时点的 a 却是相同的。 

SEM 通常用通径图来表示 ( Kline ， 2004)。图 6. 1是一个有三期数据、一个 
时变自变量的模型的通径图。在 SEM 的通径图中，按照惯例，通常把直接观察 
变量放在矩形框中，而把潜变量放在圆圈或者椭圆中。直线单向箭头表示一个 
变量对另一个变量的直接因果作用，而曲线双向箭头表示两个外生变量之间的 
二元相关 (bivariate correlation ) 0 (用结构方程模型的术语来说，内生变量是那 
些至少在一个方程中作为因变量的变量。外生变量是那些未在任何方程中作 
为因变量的变量。） 



Gr 


图 6.1 三期数据随机效应模型的通径图 
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在第 2 章中，我们使用 Stata 中的 xtreg 命令估计了公式 6. 1 中的模型，当 
时是应用在 NLSY 数据上，该数据含有 581 名儿童在 3 个不同时期的观察记 
录。当时的工作数据包含了每个小孩的 3 条记录，总共有 1743 条记录。因变量 
是对反社会行为 ( ANTI ) 的测量。自变量包括两个时变变 量:贫 困状况 ( POV ) 
和自信水平 ( SELF ) ，还有几个非时变变量。 

要像结构方程模型一样估计该模型，我们将使用每个小孩只有1条记录、同 
一 变量在 3 个时点的观察结果对应不同变量名的原始数据形式。使用 Mplus 
实现这一估计的程序代码在附录2中。 

在编写 SEM 程序来估计随机效应模型时有几点需要 谨记： 

(1) 很多 SEM 程序包估计模型时，默认情况下只使用协方差矩阵信 
息，这时你得不到截距(公式 6.1 中的 a 表示）的估计结果。如果想得到截 
距，你需要通过恰当的设置把均值整合到分析当中。但是这并不会改变回 
归系数。 

(2) 这个模型被设置成为三个独立的方程，分别针对 ANTI 90, 
ANTI 92, ANTI 94。 三个方程对应的系数被限定一致。在 Mplus 中，这是 
通过在自变量名后面的括号里放上数字来实现的，希望被限定相等的参数 
后面放相同的数字。放宽这些限定就相当于允许自变量与时间之间存在 
交互作用。 

(3) 同时需要限定 ei ， £ 2 和£ 3 的误差方差 （error variance ) 在三个方程 
中保持相等。 


和大多数 SEM 程序一样, Mplus 也会产生大量的输出结果。这一输出至 
关重要的部分——回归系数、标准误以及统计检验情况——已经呈现在表 6. 1 
中。这些估计结果应该与表 2. 5 中采用 xtreg 命令产生的结果进行比较。两套 
回归系数及标准误实质上是一模一样的。 [26 ] 

现在我们有了一种使用 SEM 软件估计随机效应模型的方法，其产生的结 
果与 Stata 中 xtreg 命令产生的相同。不过，这种方法有几个重要的不足。首 
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先，和 xtreg 命令不一样，这种方法很难用于非平衡数据。如果样本中每个个体 
的重复测量次数相等，则数据是平衡的。相反，如果我们的样本中有些小孩存 
在缺失值，比如说在变量 ANTI 94 上，有些 SEM 软件要求把这样的个体记录全 
部删除。幸好， Mplus 以及其他大多数 SEM 程序包现在都有带缺失数据情况 
下的最大似然估计选项，从而能够处理此种非平衡数据。第二，尽管可能，但要 
想设置模型以处理时间的线性作用、与时间的线性交互作用、或者随机系数也 
会非常麻烦 (MuthSn Curran ， 1997)。相反，这在 xtreg 及大多数随机效应软 
件中很容易处理。 


表 6.1 NLSY 数据的结构方程模型 



随机效应 

固定效应 

组合模型 
(Compromis) 

系数 

标准误 

系数 

标准误 

系数 

标准误 

SELF 

-0. 062** 

0. 009 

—0. 055*" 

0. 011 

-0. 062** 

0. 009 

POV 

0. 247” 

0. 080 

0. 112 

0. 093 

0. 111 

0. 093 

BLACK 

0. 227 

0. 125 

0. 269* 

0.126 

0. 269* 

0. 126 

HISPANIC 

—0. 218 

0.138 

—0. 198 

0. 138 

—0. 201 

0. 138 

CHILDAGE 

0. 088 

0. 091 

0_ 089 

0. 091 

0. 090 

0.091 

MARRIED 

-0. 049 

0. 126 

—0. 022 

0. 126 

— 0. 025 

0. 126 

GENDER 

-0. 483 科 

0. 106 

—0. 476** 

0. 106 

一 0_ 479 科 

0. 106 

MOMAGE 

-0. 022 

0. 025 

—0. 026 

0. 025 

—0. 025 

0. 025 

MOMWORK 

0. 261 

0.114 

0. 296** 

0.115 

0. 295 _ 

0. 115 


注： *0.01 </>< 0.05, ** p<0.0l o 


但是， SEM 方法也有一些重要的优点。第一，它可以综合随机效应模型 
与带有多个指标的潜变量模型。这些潜变量既可以是自变量也可以是因变 
量。有关多指标潜变量模型的很好的人门介绍可以在克兰 （ Kline ，2004) 或者 
哈彻 ( Hatcher ，1994) 的著作中找到。第二，如我们将在下一节看到的，基于 
SEM 框架的随机效应模型可以被扩展到用于估计固定效应模型，这种估计 
是通过允许随机效应模型与固定效应模型进行比较或折衷的方式来实 
现的。 
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固定效应作为潜变量的模型 

如在第2章中已经提到的，基本的随机效应模型实际上只是固定效应模 
型的一种特殊形式 (Mundlak， 1978)。随机效应模型假定&与时变预测变量 
的向量 A 不存在相关。而固定效应模型允许& 与心 的元素存在任意的相关。 
图 6. 2展示了一个简化的只有一个时变自变量的固定效应模型。这个通径图 
与图 6. 1的唯一差别 在于: a 和: r 之间多了表示相关的曲线箭头。 



图 6. 2三期数据固定效应模型的通径图 


这些新加的相关通过简单地设定潜变量与时变自变量之间的相关很容易 
就能合并到 SEM 软件中 （Allison & Bollen， 1997; Teachman，Duncan, Yeung 
^ Levy, 2001)。 注意，潜变量不能与任何非时变自变量如 GENDER 或 MAR¬ 
RIED 存在相关。 试图这样做将导致不能识别的模型 （underidentified model) , 
通常会产生错误或警告信息。 

固定效应模型的系数估计及相关的统计量呈现在表 6. 1的中间两列中。我 
们首先来看 SELF 和 POV 的系数及标准误，可以看到它们与表 2. 5中使用 
xtreg 命令的固定效应选项估计的结果一模一样它们与表 2. 8中采用混 
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合模型法所得结果也完全一样。 

与混合模型法一样，表 6. 1也给出了非时变变量的系数估计。不过，表 6. 1 
中这些变量的系数估计值和统计检验结果与表 2. 8中的估计值及统计检验结果 
大不一样。例如，表 6. 1中 MOMWORK 的系数明显地统计显著，但在表 2. 8 
中同样明显地不显著。哪一个更好呢，混合模型估计还是 SEM 估计？这得看 
情况。仿真结果(这里没有呈现出来)强烈地表明，当非时变协变量 z 与未被观 
测的异质性因素《之间的相关为0时， SEM 产生的估计值近似无偏，而混合模 
型法产生的估计结果将可能大幅有偏 (substantially biased )。 相反，当 z 与 a 相 
关时，两种估计都会有偏，但 SEM 估计结果的偏差会比混合模型法的偏差 
更大。 

既然我们已经同时有了固定效应和随机效应两种形式的结构方程模型，那 
么很容易就能产生一个对二者进行比较的似然比统计量 ( statistic )。 对于每一 
个模型，输出结果都会包括一个卡方统计量和相应的自由度。这个统计量将模 
型的整体拟合水平与能够完美地重生 (perfectly reproduce ) 所有变量的协方差 
矩阵的饱和模型进行比较。对于随机效应模型，卡方值为 84. 42,自由度为34。 
而对于固定效应模型，卡方值与对应的自由度分别为 66. 45和28。两者之间的 
差异是一个取值为 17. 97,带6个自由度的卡方量。这6个自由度对应的是固 
定效应模型下允许的另外6个相关。这一卡方量的/>值为 0. 006,表明我们应 
该拒绝随机效应模型而选择固定效应模型。这与我们在第2章中应用 Stata 产 
生的 Hausman 检验及检验均值变量系数与对中值系数是否相等的检验达成的 
结论相同。 [28] 与混合模型法中的检验一样，这里计算的似然比检验拥有比 
Hausman 检验更好的统计性质，比方说，后者在一些数据构造下可能取负值。 


固定效应和随机效应的折衷 


在上一节，我们是以随机效应模型作为开始，然后允许随机效应《与时变解 
释变量之间所有可能的相关的方式获得固定效应模型的。但可能并非所有那 
些相关都真实存在。表 6. 2给出了使用 Mplus 产生的《与时变变量之间的相 
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关系数与协方差估计值。看起来，〃与 SELF 变量的相关系数很小，而且在统计 
上不显著，但与 POV 变量的相关系数要大一些，且3个中有两个统计显著。这 
说明我们可以将《与 SELF 的相关系数设置为 0, 而不会明显降低模型的拟合 
水平。这样做是令人满意的，因为它将使我们对 SELF 系数的估计同时基于个 
体内及个体间的变异，得到的标准误将更小些。 [29] 


表 6. 2 a 与时变自变童之间的相关系数 



相关 

之统计量 

SELF90 

—0. 006 

-0. 77 

SELF92 

一 0. 0146 

-1.71 

SELF94 

-0. 008 

-1. 01 

POV90 

0. 123 

3. 34 

POV92 

0. 049 

1. 33 

POV94 

0, 095 

2. 49 * 


这在 Mplus 中很容易就能实现，产生的结果呈现在表 6. 1的右边两列。 
POV 的系数及 z 统计量与我们在固定效应模型中得到的差不多相同。另一方 
面， SELF 的系数比纯固定效应模型的略微大些，而其标准误要小 20% 左右。取 


这两个模型的卡方之差，我们得到自由度为3的卡方值 3. 00。这显然在统计上 
不显著，这表明我们不能因为喜欢较复杂的模型而拒绝较简单的模型(将3个相 
关系数设定等于0的那个)。 

带滞后自变量的交互效应 


至此，我们已经看到第2章中很多固定效应和随机效应模型同样也能用 
SEM 软件进行估计，而且这种方法既有优点也有不足。下面我们来考虑一些远 
远超出第2章的重要固定效应模型，它们在结构方程框架下估计起来非常方便。 
这些模型违背了第2章的严格外生性假定，这一假定表述的是，在任意时点 i 及 
t ，， ^都在统计上独立于这种情况的出现或是因为^受早先时点的 y 的影 
响，或是因为 &的 某个元素就是早先时点的： V 本身(时滞因变量）。这些模型非 
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常重要，因为它们为增强我们确定相互关联的变量间的因果方向的能力提供了 
可能。 

假设我们观测了两个 变量# 和: V ，已知两者存在相关。我们想知道究竟是 
x 导致了 ^还是: V 导致了 ： r (或者同时存在）。两个变量都在几个时点上得到观 
察。假定有下面的 模型： 


yu = + 和 i(t 一 v ai H - en 

oca — r t +$yiu-i) + 7*+ On [6. 2] 

这一模型所说的是: ^ 受前一个时点的: c 的影响，而 工受 前一个时点的 y 的 
影响。模型还包括固定效应 a 和 7 ，它们代表任何及所有非时变解释变量对每 
个变量©的作用。我们同样可以纳入其他时滞型时变自变量和非时变变量，但 
这将使得我们的讨论变得不必要的复杂。 

这一模型如何估计呢？如果观察恰好只有3个时点，那模型可以通过取一 
阶差分，然后分别对每个方程应用一般最小二乘法的方式进行 估计: [ 3G ] 

yi3 ~ yi2 = ("3 — — Xa ) + (ei3 一 &2) 

工 i 3 — X i2 = ( r 3 — r 2) + ^(^2 _ yu ) + ( Ui 3 一％ 2 ) [6. 3] 

当超过 3 个时点时，第 2 章使用的方法(纳人标识每个个体的虚拟变量或者 
相对于均值的离差)看起来能够完成这一工作。不幸的是,由于存在往复效应， 
在固定效应估计中使用的差分值必然与回归方程中的误差项相关，从而导致有 
偏的估计 ( Woodridge ， 2002)。幸好，通过将固定效应并入结构方程模型，能够 
帮助我们规避这些难题。 

当模型进一步扩展到允许纳入因变量（内生变量)的时滞值时，会出现更严 
重的 困难： 

Jit = fit 工;(卜 1) +译3^(卜1) 

ocu = r t - \-8 zyiu - i ) + rji + vu [6. 4] 

①此处指 x 及^——译者注 
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如果我们将固定效应 (《 和 7) 排除在外，这一模型就是社会科学中有名的两 
期一双变量面板模型 ( two ~ wave ， two-variable panel model ) 或交叉滞后面板模 
型 （ cross-lagged panel model )。 

在计量经济学文献中，带滞后因变量的面板模型被称为动态模型。它们因 
对常规估计方法造成严重困难而出名，已经有几种可供选择的办法来应对该模 
型 ( Baltagi ， 1995； Honore , 1993； Honore Kyriazidou , 2000)。 这些方法一 
般依赖于工具变量( IV )框架下对滞后变量的使用。其中最有名的是 Arellano 
和 Bond (1991) 提出的，通过在 Stata 中用 xtabond 命令来实现。不过， Lancas - 
ter (2000) 将 IV 法描述成为“临时的”，而且“只是因为计量经济学家不懂得如何 
正确使用似然法”才被使用的。 

确实，动态固定效应模型的最大似然估计可以通过使用 SEM 软件直接估计。 
尽管这种方法的性质尚未得到分析性的深人研究，我所做的仿真研究 ( AUison ， 
2000) 显示，这种方法能够很好的再生 ( recover ) 等式 6. 4所示模型的参数。 

作为示例，我分析了美国1983, 1989, 1995和2001年178个职业的数据。 
这一数据来自于每年3月的“当期人口调 査:年 度人口档案 ” (Current popula ^ 
tion survey ： Annual demographic file [ CPS]) Q 在 CPS 原始数据中，观察对象 
是个人，但我使用的只是178个职业的汇总数据。对于每个年度的每个职业，我 
都计算了该职业中女性的比例及女性中位工资收人。这里只考虑了每个年度 
至少有50个样本个体的178个职业。更详细的信息可以参看英格兰、埃里森及 
吴的作品 （ England，Allison & Wu , 2007)。工资变量被标定为 MDWGF 1- 
MDWGF 4, 而女性比例为 PF 1- PF 4。 

对于等式 6. 4中的模型，令: v 为中位工资收人， x 为女性比例。在1983年， 
这两个变量之间的相关系数为一 0. 33,并且高度显著。关于这两个变量之间的 
因果方向存在相当多的争论 (England et al . ，2007)。一种观点认为，雇主会贬 
低女性比例较高的职业的价值，从而支付较低的工资。与此针锋相对的假设 
是，逐渐下降的工资使得该职业对男性不再那么具有吸引力，当他们离开并涌 
向报酬更好的工作时，妇女将填补他们空缺下来的职位。这里，我假定两个变 
量中任何一个的变化都会在6年后另一个变量的变化中显露出来。 
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通过估计等式 6. 4中的两个方程，我们可以对这两种可能的因果作用进行 
评估。尽管这两个方程可以同时进行估计，但分开估计可使模型的设置具有更 
大的弹性。除固定效应外，容许相互作用的关键设置 在于: 各个时点的误差 
项被允许与时变协变量的未来值 （future value of time-dependent covariate ) 相 
关 ( Woodridge ，2002)。 在我们的例子里， Time 2 时中位工资方程中的误差项必 
须被允许与 Time 3 时的女性比例之间存在非零的相关。与此类似， Time 2 时女 
性比例方程中的误差项必须与 Time 3 时的中位工资相关。 注意: 没有方程可以 
用来预测 Timel 时的中位工资或者女性比例，因为我们没有观察它们6年前 
(1977 年)的滞后值。 

另外要注意，对于滞后因变量，只允许潜变量与 Timel 时的变量值相关。 
这是因为只有 Timel 变量是外生的，而相关只被允许存在于外生变量之间。事 
实上没有必要设定潜变量与滞后因变量后来的各取值相关，因为潜变量本身就 
是求取这些变量的方程的自变量之一。 

两个方程的结果呈现在表 6. 3中。一点都不奇怪的是，每个变量都对其自 
身6年后(的取值)有着正向的、统计显著的作用。但对于“交叉一滞后”系数，没 
有证据支持两个作用方向中的任何一个。 


表 6. 3 交互作用模型的估计结果 




反应 

变量 


自变量 


工资中位数 

女性比例 



系数 

标准误 

系数 

标准误 

工资中位数 

0, 344 1 

0. 064 

-0. 001 

0. 002 

女性比例 

-0. 159 

2. 447 

0. 299"* 

0.079 


在其他地方，我曾经质疑过，当模型已经包含固定效应时，纳入因变量滞后 
值是否必要 ( desirability ) ( AUison ， 1990)。因此，我还估计了一个不含因变量 
滞后值的模型，得到的交叉一滞后系数完全一样。类似的，含有因变量滞后值 
但不包括固定效应的模型(经典的两期一双变量面板模型）同样未能提供支持 
某一方向的交叉一滞后效应的证据。 
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分析 


总结 

定量反应变量的线性固定效应或随机效应回归模型可以用 SEM 软件进行 
估计,所得结果与第2章中讨论的更常规的方法得到的一样。不过，这种方法要 
求不同的数据结构，这种数据的一条记录包括每个个体或群组的所有测量，多 
次测量被编码为不同的变量。在 SEM 软件中，每个反应变量在每个时点都设 
定了一个单独的方程，不同方程的系数通常被限定彼此相等。而随机效应或固 
定效应被设定为潜变量，并为各个方程中所共有。在固定效应形式下，这一潜 
变量被允许与所有在不同方程中有所变化的自变量之间存在相关。 

这一方法通常比第2章中描述的方法设置起来更加麻烦。但是，它允许进 
行一些有趣的拓展，包括对固定效应和随机效应进行比较的似然比检验，对固 
定效应和随机效应模型的折衷，以及建立潜变量有多个指标的模型。最重要的 
是，在 SEM 框架下有可能对这样一种跟踪调査数据模型进行估计，在这种模型 
中，两个或多个反应变量彼此之间被认为存在滞后的相互作用。这种模型使我 
们有可能根据非实验数据做出比平常更有力的因果推论。 



附录 1 I 第2章到第5章例題的 Stata 程序 


use '’C:\\data\\nlsy”，clear 

/ * 表 2. 1 * / 
reg anti90 self90 pov90 
reg anti94 self94 pov94 
gen antidiff = anti94 - anti90 
gen povdiff = pov94 - pov90 
gen selfdiff = self94 - self90 
reg antidiff povdiff selfdiff 

/* 表 2.2* / 

reg antidiff povdiff selfdiff pov90 self90 black III 
hispanic childage married gender momage momwork 


" 表 2.3* / 

gen antidif 1 = anti92 - anti90 
gen antidif2 = anti94 - anti92 
gen selfdifl = self92 - self90 
gen selfdif2 = self94 - self92 
gen povdif 1 = pov92 - pov90 
gen povdif 2 = pov94 - pov92 
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reg antidif2 selfdif2 povdif2 
reg antidifl selfdif 1 povdifl 
gen id = 一 n 

reshape long antidif povdif selfdif i( id) 

gen eqdum = 」一 1 

reg antidif povdif selfdif 

xtset id 

xtreg antidif povdif selfdif eqdum, pa 

/ * creat data set with 3 records per person* / 
use H C : \\data\\nlsy n , clear 
gen id = 一 n 

reshape long anti self pov ， i( id) 
gen time =1+( 」 -90)/2 

/* 表 2_ 5 * / 

xi ： reg anti self pov i. time i. id 
xi ： reg anti self pov i. time 
xtset id time 

xi ： xtreg anti self pov i. time, fe 


/ * 表 2. 6 * / 

xi ： xtreg anti i. time * self i. time * pov III 
i. time * gender i. time * childage III 
i. time * hispanic i. time * back i. time * momwork III 
i. time * married III 
i. time * momage ， fe i( id) 

testparm _ItimXself * __ItimXpov * _ItimXgend * III 



—ItimXchill * _ItimXhisp * III 

一 ItimXblac * 一 ItimXmomw * _ItimXmarr * _ItimXmoma * 

/* 表 2_7* / 

xi: xtreg anti self pov i. time black hispanic /// 
childage married gender momage momwork 
xi : xtreg anti self pov i* time 

/ * Hausman test * / 

xi ： xtreg anti self pov gender childage hispanic III 
black momwork married momage i. time 
estimates store random 一 effects 


xi ： xtreg anti self pov i. time, fe 


estimates store fixed_effects 
hausman fixed—effects random 一 effects 


表 2.8* / 

egen mself - mean{ self), by( id) 
egen mpov = mean(pov), by( id) 
gen dself = self — mself 
gen dpov = pov - mpov 

xi ； xtreg anti dself dpov mself mpov black III 
hispanic childage married /// 
gender momage momwork i. time 
test {dself = mself) (dpov = mpov) 
xi ： xtmixed anti dself dpov mself mpov black III 


hispanic childage married III 
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gender momage momwork i. time | | id ； dself 

/ * 表 3.1 * / 

use M C ： \\data\\teenpov. dta n , clear 
tab povl pov5 


/ * 表 3_ 2 * / 
drop if povl = = pov5 
gen dmother = mothers - motherl 
gen dspouse = spouseS - spousel 
gen dschool = inschoolS - inschooll 
gen dhours = hours5 - hours 1 
logit pov5 dmother dspouse dschool dhours 
logit pov5 dmother dspouse dschool dhours black age 
logit pov5 dmother dspouse dschool dhours black III 
age motherl spousel inschooll hours 1 


/* 表 3. 4 * / 

use fT c ： \\data\\teenpov. dta" , clear 

reshape long pov mother spouse inschool hours, i(id) 

rename inschool school 

rename _j year 

xtset id year 

xi ： xtlogit pov mother spouse school hours III 
i. year, fe 

xi ： xtlogit pov mother spouse school hours III 
i* year, pa corr(uns) 

xi ： xtlogit pov mother spouse school hours i. year 



/ * 表 3. 5 * / 

gen mothblack = mother * black 
xi ： xtlogit pov mother spouse school hours ill 
mothblack i. year, fe 
gen yearschool = (year - 1) * school 
gen yearhours = (year -1)*( hours - 8. 67) 
gen yearblack = (year - 1) * black 
gen year age = (year - 1) * (age — 15. 65) 
xi : xtlogit pov mother spouse school hours year III 
yearschool yearhours ill 
yearblack yearage, fe 

/* 表 3. 6 ， 3. 7 * / 

egen ramother = mean (mother), by( id) 
egen mspouse = mean( spouse), by( id) 
egen raschool = mean(school), by( id) 
egen mhours = mean(hours), by( id) 
gen cinother = mother - mmother 
gen dspouse = spouse - mspouse 
gen dschool ~ school — mschool 
gen dhours = hours - mhours 

xi ： xtlogit pov dmother dspouse dschool dhours III 
mmother mspouse mschool mhours black age i. year 
test dmother = mmother 
test dspouse = mspouse 
test dschool = mschool 
test dhours = mhours 

test (dmother = mmother) (dspouse = mspouse) III 
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(dschool = mschool)(dhours = mhours) 
xi ： xtmelogit pov dmother dspouse dschool dhours III 
ramother mspouse III 

mschool mhours black age i. year | | id ： dmother 

/ * 表 3. 8 * / 

use "C ： \\data\\nlsy ,T s clear 
gen id = 一 n 

reshape long anti self pov, i(id) 
gen time = 1 + (」_ 90) /2 
egen mself = mean( self), by( id) 
egen mpov = mean(pov), by( id) 
gen dself = self - mself 
gen dpov = pov - mpov 

xi ： ologit anti dself dpov mself mpov black III 
hispanic childage married III 
gender momage momwork i. time, cluster(id) 
test (dself = mself) (dpov = mpov) 

/ * 表 3. 9 * / 

use "C ： \\data\\teenpov2. dta" , clear 

reshape long mother spouse empstat, i( id) 

drop if empstat =. 

gen currage = age + _j - 1 

egen mraother = mean(mother) , by(id) 

egen mspouse = mean(spouse), by( id) 

egen mage = mean(currage) , by( id) 

gen dmother = mother — mmother 
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gen dspouse = spouse - mspouse 
gen dage = currage - mage 

mlogit empstat draother mmother dspouse mspouse III 
dage mage black, III 
vce(cluster id) base(l) 
test( [ # ljdmother = [ # ljmmother) III 

([#l]dspouse= [ # l]mspouse) ([ # l]dage = [ #l]mage) 
test( [ # 2]dmother = [ # 2]mmother) III 

([#2]dspouse= [ # 2]raspouse) ([ # 2]dage = [ #2]mage) 
preserve 

drop if empstat = 3 
gen empstat2 = empstat - 1 
xtset id J 

xtlogit empstat2 dmother III 

mmother dspouse mspouse dage mage black, re 
drop if empstat = 2 
gen empstat3 = empstat - 1 
xtset id 

xtlogit empstat3 dmother mmother dspouse mspouse III 
dage mage black, re 


/* 表 4.1 * / 

use patents, clear 
gen total = pat75 + pat79 
gen rdO = logr79 - logr75 
gen rdl = logr78 - logr74 
gen rd2 = logr77 - logr73 
gen rcD = logr76 - logr72 



寓瓤囲归分析 


gen rd4 = logr75 - logr71 
gen rd5 = logr74 — logr70 

blogit pat79 total 

blogit pat79 total, vce( jack) 

blogit pat79 total, vce(boot) 

blogit pat79 total rdO - rcB 

blogit pat79 total rdO _ rd5, vce( jack) 

blogit pat79 total rdO - rcB, vce(boot) 

blogit pat79 total rdO - rcB science logsize 

blogit pat79 total rdO — rcB science logsize, vce(boot) 

/ * 表 4. 2 * / 

use patents, clear 
rename pat75 patentl 
rename pat7 6 patent2 
rename pat77 patent3 
rename pat78 patent4 
rename pat79 patents 

gen sumpat = patentl + patent2 + patent3 + patent4 + patents 

gen rdal = logr75 

gen rda2 = logr76 

gen rda3 - logr77 

gen rda4 = logr78 

gen rda5 = logr79 

gen rdbl = logr74 

gen rdb2 = logr75 

gen rdb3 = logr76 
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gen rdb4= logr77 
gen rdb5 = logr78 
gen rdcl = logr73 
gen rdc2 = logr74 
gen rdc3 = logr75 
gen rdc4 = logr?6 
gen rdc5 = logr77 
gen rddl = logr72 
gen rdd2 = logr73 
gen rdd3 = logr74 
gen rdd4 = logr75 
gen rdcB = logr76 
gen rdel = logr71 
gen rde2 = logr72 
gen rde3 = logr73 
gen rde4 = logr74 
gen rde5 = logr75 
gen rdfl - logr70 
gen rd£2 = logr71 
gen rdf 3 = logr72 
gen rd£4 = logr73 
gen rdf5 = logr74 
gen id = —n 

reshape long patent rda rdb rdc rdd rde ref, i( id) 
repaame _j time 
rename rda rdO 


rename rdb rdl 
rename rdc rd2 
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rename rdd rd3 
rename rde rd4 
rename rdf rd5 

list id time patent rdO - rd5 in 1/20 
xtset id time 

/ * 表 4 t 3 * / 

xi ： xtpoisson patent rdO rdl rd2 rcD rd4 rcE5 III 
i. time, fe 

xi ： xtpoisson patent rdO rdl rd2 rd3 rd4 rcB III 
i. time, fe vce(boot) 

xi ： xtpoisson patent rdO rdl rd2 rcG rd4 rd5 III 
i.time, re 

xi ； xtpoisson patent rdO rdl rd2 rd3 rd4 rd5 III 
i, time, pa corr(uns) vce(robust) 
xi ： xtpoisson patent rdO rdl rd2 rd3 rd4 rd5 III 
i. time 

/ * 表 4 t 4 * / 

gen xdsci = rdO * science 

xi ； xtpoisson patent rdO rdsci i. time, fe 

xit ： xtpoisson patent rdO rdsci i. time, fe vce(boot) 

/ * 表 4. 5 * / 

gen scitime = time * science 

xtpoisson patent rdO time scitime, fe i( id) 

xtpoisson patent rdO time scitime, fe i(id) III 


vce(boot) 
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/ * 表 4. 6 * / 

drop if sumpat = 0 

xi ： nbreg patent i. id rdO rdl rd2 rd3 rd4 rd5 III 
i. time 

xi ： nbreg patent i. id rdO - rd5 i. time,vce(opg) 

/ * 表 4. 7 * / 

xi : xtnbreg patent rdO — rd5 i, time, fe i(id) 
xi：xtnbreg patent rdO - rd5 science logsize III 
i. time, fe i(id) 

/ * 表 4. 8 * / 

egen mrdO = mean(rdO) 3 by(id) 
egen mrdl = mean(rdl), by( id) 
egen mrd2 = mean( rd2), by( id) 
egen mrcB = mean(rcD), by( id) 
egen mrd4 = mean( rd4), by( id) 
egen mrd5 = mean(rcB), by( id) 
gen drdO = rdO - mrdO 
gen drdl = rdl - mrdl 
gen drd2 = rd2 - mrd2 
gen drcB = rd3 — mrcG 
gen drd4 = rd4 - mrd4 
gen drd5 = rd5 — mrcB 

xi ： xtnbreg patent drdO drdl drd2 drd3 drd4 drd5 III 
mrdO mrdl mrd2 mrd3 III 
mrd4 mrd5 science logsize i. time, re 
test (drdO = mrdO) (drdl = mrdl) (drd2 = mrd2) III 
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(drcG = mrcG) (drd4 = mrd4) (drd5 = mrd5) 
xi ： xtnbreg patent drdO drdl drd2 drd3 drd4 drd5 /// 
mrdO mrdl mrd2 mrd3 III 

mrd4 mrcB science logsize i. time, pa robust 
test (drdO = mrdO) (drdl = mrdl) (drd2 = mrd2) III 
(drcG = mrcB) (drd4 = mrd4) (drd5 = mrd5) 

/ * 表 5.1 * / 

use n C:\\data\\nsfg_ dta" ， clear 
stset dur, failure (birth = 1) 

stcox pregordr age married passt nobreast lbw III 
caesar multiple college, nohr 
stcox pregordr age married passt nobreast lbw III 
caesar multiple college, nohr cluster (caseid) 

/ * 表 5. 2 * / 

stcox pregorder age married passt nobreast lbw III 
caesar multiple college, III 
strata(caseid) nohr 
gen collbreast = college * nobreast 
stcox pregorder age married passt nobreast lbw III 
caesar multiple college III 
collbreast, nohr strata(caseid) 

/* 表 5. 3 * / 

use "C:\\data\\coupleday. dta” ， clear 

xtset coupleid day 

xtlogit husdead wif edl5, fe or 



xtlogit husdead wifed30 ， fe or 
xtlogit husdead wifed60, fe or 
xtlogit husdead wifed90, fe or 
xtlogit husdead wifedl20, or 
xtlogit husdead wifedl5, or 
xtlogit husdead wifecBO, or 
xtlogit husdead wifed60, or 
xtlogit husdead wifedBO, or 
xtlogit husdead wifedl20, or 

/* 表 5.5*/ 
drop if wifef irst = 0 
gen day2 = day* day 

xtlogit wifedlS husdead day day2 ， fe or 
xtlogit wi£ed30 husdead day day2, fe or 
xtlogit wifed60 husdead day day2, fe or 
xtlogit wifed90 husdead day day2, f e or 
xtlogit wifedl20 husdead day day2, f e or 



附录 2 I 第6章例题的 Mplus 程序 


! 表 6. 1 

! Random Effects 

Data ： file is M c ： \\data\\nlsy. dat f, ； 

variable : names are anti90 anti92 anti94 black childage gender hispanic 
married momage momwork pov90 pov92 pov94 self90 self92 self94 ； usevari- 
ables = anti90 anti92 anti94 black childage gender hispanic married mo- 
mage momwork pov90 pov92 pov94 self90 self92 self94 ; 

Model ： 

falpha by anti90 - anti94@l ； 
anti90 on 
pov90 (1) 
self90 (2) 
black (3) 
hispanic (4) 
childage (5) 
married (6) 
gender (7) 
momage (8) 
momwork (9 )； 
anti92 on 
pov92 (1) 
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self 92 (2) 
black (3) 
hispanic (4) 
childage (5) 
married (6) 
gender (7) 
momage (8) 
momwork (9 )； 
anti94 on 
pov94 (1) 
self94 (2) 
black (3) 
hispanic (4) 
childage (5) 
married (6) 
gender (7) 
momage (8) 
momwork (9 )； 

falpha with pov90 - pov94 @ 0 self90 - self94 @ 0 black @ 0 hispanic @ 0 
childage® 0 married®0 gender@0 momage@0 momwork@0 ； 
anti90 anti92 anti94 (10 )； 

! Fixed Effects 

Data ： file is "C ： \\data\\nsly. dat "； 

Variable ： names are anti90 anti92 anti94 black childage gender hispanic 
married momage momwork pov90 pov92 pov94 self90 self92 self94 ； usevari- 
ables = ant 190 anti92 anti94 black childage gender hispanic married mo¬ 
mage momwork pov90 pov92 pov94 self90 self92 self94 ； 
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Model ： 

falpha by anti90 - anti94@l ； 
anti90 on 
pov90 (1) 
self90 (2) 
black (3) 
hispanic (4) 
childage (5) 
married (6) 
gender (7) 
momage (8) 
momwork (9 )； 
anti92 on 
pov92 (1) 
self92 (2) 
black (3) 
hispanic (4) 
childage (5) 
married (6) 
gender (7) 
momage (8) 
momwork (9 )； 
anti94 on 
pov94 (1) 
self94 (2) 
black (3) 
hispanic (4) 
childage (5) 
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married (6) 
gender (7) 
momage (8) 
momwork (9 )； 

falpha with black@0 hispanic@0 childage@0 married®0 gender@0 manage 

@0 momwork@0 ； 

anti90 anti92 anti94 (10 )； 

! Compromise 

Data ： file is M c : \\data\\nlsy. dat "； 

variable ： names are anti90 anti92 ant 194 black childage gender hispanic 
married momage momwork pov90 pov92 pov94 self90 self92 self94 ； usevari- 
ables = anti90 anti92 anti94 black childage gender hispanic married mo¬ 
mage momwork pov90 pov92 pov94 self90 self92 self94 ； 

Model: 

falpha by anti90 - anti94@l ； 
anti90 on 
pov90 (1) 
self90 (2) 
black (3) 
hispanic (4) 
childage (5) 
married (6) 
gender (7) 
momage (8) 
momwork (9 )； 


anti92 on 
pov92 (1) 
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self 92 (2) 
black (3) 
hispanic (4) 
childage (5) 
married (6) 
gender (7) 
momage (8) 
momwork (9 )； 
anti94 on 
pov94 (1) 
self94 (2) 
black (3) 
hispanic (4) 
childage (5) 
married (6) 
gender (7) 
momage (8) 
momwork (9 )； 

falpha with self90 - self94@0 black@0 hispanic®0 childage®0 
married@0 gender® 0 momage® 0 momwork@0 ； 
anti90 anti92 anti94 (10); 

! 表 6.3 

Data ： file is n C ： \\data\\occ. dat M ； 

Variable : names are pf 1 - pf4 mdwgfl - mdwgf4 ； usevariables pf 1 - pf4 md- 
wgf1 — mdwgf3 ； 

Model: 


alpha by pf 2 - pf4@l ； 
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pf4 on 
pf3 (1) 
mdwgf 3 (2)； 
pf 3 on 
Pf2 (1) 
mdwgf2 (2)； 
pf2 on 
pfl (1) 
mdwgf1 (2)； 
mdwgf 3 with pf 2; 

Data： file is "C:\\data\\occ. dat"; 

Variable： names are pfl - pf4 mdwgf 1 - mdwgf4； usevariables pfl - pf3 md¬ 
wgf 1 - mdwgf4； 

Model： 

alpha by mdwgf 2 - mdwgf4@1； 
mdwgf4 on 

pf3 ⑴ 
itidwgf3 (2)； 
mdwgf3 on 
pf2 ⑴ 
mdwgf2 (2)； 
mdwgf2 on 
pfl (1) 
mdwgf1 (2)； 
mdwgf 2 with pf3； 
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注释 


[1 ] 感谢皮特 • 苔丝 (Peter Tice) 为我准备并提供了这一数据。 

[ 2 ] 因为 ANTI 只能取整数值并且是正偏态分布，因此使用序次 logit 回归可能比使用线性回归更合 
适。事实上，在第3章我们就会用这种模型来分析该数据。不过， logit 模型得到的结论与本章利 
用线性模型得到的结论在性质上几乎是一样的。 

[3] 在这里，随机效应模型 (xtreg 命令的默认设置)是不合适的，因为随机效应模型只允许误差项之 
间存在正向相关。在存在多个一阶差分方程的情况下，误差相关通常是负的。 

[ 4 ] 这里 reg 命令(本章讨论的所有其他 Stata 命令）是和 xi 前缀一起使用的，这样可以将 TIME 及 
ID 变量作为分类变量处理。 

[5] 这些数字可以通过将各变量分别作为因变量， ID 变量作为分类自变量进行方差分析得到。 

[6] State 另一个实现离均差法的命令是用 areg 配合 absorb (id) 选项来实现的。 

[7] Hausman 检验的计算如 下:令 b 表示固定效应系数向量(不包括截距项表示对应随机系数向 
量。令 D = var(6) — var(^) ，其中 var(6) 是6的估计协方差矩阵，^的类似。 Hausman 检验的 

统计量为 (& —印'；2 _1 ( 6 —浓，它在虚无假设下服从卡方分布。 

[8] 这里描述的混合法与 Mimdlak(19 7 8) 和 H a u S man(1978) 提出的方法相似,但并不相同。 

[9] 这些估计只有在数据集平衡——也就是说，每一个个体被观察的期数相等一的情况下，才完全 
相等。否则，混合法所得估计将与常规固定效应估计略有差异。 

[10] 关于这一结果的来历，请看埃里森的另一本著作 (Allison, 2005)。 

[11] 在两期观察情况下，条件似然法也可以采用下一节将讨论的针对三期及以上数据的方法进行，使 
用的是 Stata 中的 xtlogit 命令。所得结果将与刚刚讨论的“差分”法一样。 

[12] 我同样拟合了另一个模型—— YEAR 在全部4个交互项中都被当做定类变量对待，但通过似然 
比检验发现，该模型与模型2并不存在显著差异。 

[13] 在表 3. 5中我仅仅考察了这些被选中的交互项。在很多实际应用中，可能需要同时检验所有变 
量与时间的交互项，以对模型在各时期的稳定性进行全面检验。这可以通过比较两个模型的方 
式 完成: 一个模型含有所有的交互项,而另一模型不含任何此类交互项。两个模型的似然比卡方 
统计量的差值本身就是对所有这些交互项系数都等于 0( 相应的自由度等于两个模型的自由度 
之差)的假设的似然比卡方检验。 

[14] 这些检验通过 Stata 中的 test 命令能够轻松完成。具体细节请看附录1。 

[15] 本章不考虑零膨胀泊松及负二项模型，有三个原因:它们要复杂得多，几乎没有软件可用来对跟 
踪调査数据进行此种分析，而且负二项模型本身就能为含有大量零计数值的数据提供满意的 
拟合。 

[16] Stata 中的 reshape 命令使得数据结构的此种变换变得非常简单。 

[17] 由于自助法带有随机抽样环节，因此每次运行所得自助标准误会略有差异。通过增加自助样本 
的数量可以使变异的程度变小。 

[18] 表 4. 3中的 GEE 估计是使用5个年份专利数的“非结构化 (unstructured)” 相关矩阵所得结果。 

[19] nbreg 命令能够拟合两种不同形式的负二项模型。在默认形式(这里比较适合采用的形式)下，方 
差是均值的函数。而在另外一种形式下，使用 dispersion(constant) 选项可以将方差设置成为一 
个常数。这尽管看起来很具吸引力，但并不适合用在这里。 

[20] 和第3章的 logistic 模型不同，负二项回归的总体均值模型与具体单位模型之间似乎不存在任何 
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差异。这意味着，随机效应估计结果从大小上看不应该比 GEE 估计更大。 

[21] 实际上，我确实尝试这么做了，但我的电脑在运算了 10天后仍在运算，我只好终止了这一尝试。 
从原则上讲，此种计算困难可以使用格林 (Greene) 的算法 (2001) 解决，但目前的商业软件中没有 
现成程序可用。 

[22] 非常感谢尼古拉斯 • 克里斯塔吉斯 (Nicholas Christakis ) 允许我在这里使用这些数据，对这一数 
据更详细的描述请看埃里森和克里斯塔吉斯的著作 (Mison & Christakis , 2006)。 

[23] 可以纳人时间的非单调函数，如 S in (27 rf /365)， 它能够在一年当中周期性地变动。 

[24] 当模型在控制变量上“饱和”时，这种对称是完全的，而对于非饱和模型，这种对称只是近似的。 
所谓饱和模型，是指含有分类自变量及其所有可能交互项的模型。 

[25] 在 Stata 中使用用户提交的 gllamm 命令可以估计一些结构方程模型。但即使是这一命令，它的 
设定也相当笨拙、复杂。 

[26] 我没有在表 6. 1中报告 TIME 的系数，因为用 Mplus 估计的这三个截距与表 2. 5中的并不完全 
对应。在表 2. 5中 TIME 2 的系数等于时间2时的截距与时间1时的截距之差。类似的，表 2. 5 
中 TIME 3 的系数等于时间3时的截距与时间1时的截距之差。 

[27] 阿尔纳斯和霍尔姆 (Ejmaes & Holm , 2006) 错误地宣称传统的固定效应估计结果与 SEM 估计 
结果不同。事实上，这两种方法总是给出相同的结果。 

[28] SEM 检验有 6 个自由度， Hausman 检验有 4 个，而混合法检验只有 2 个自由度。这是因为 SEM 
检验允许 CT 和: T 之间的协方差在三个时期各不相同，而另外两种方法内在地限定它们相同。 
Hausman 检验比混合法检验多两个自由度，是因为它同时检验了两个时间系数在随机效应模型 
与固定效应模型中是否相等。拟合固定效应模型时，通过限定《和工之间的协方差在各个时期 
相等，我们可以在 SEM 框架下得到一个自由度为 2 的检验。对于 NLSY 例子来说，这将得到一 
个自由度为 2 的卡方值，对应 p 值为 0. 003, 略微小于自由度为 6 的检验的值。这相对于混合 
法检验来说要小得多，后者得到的卡方值为 9. 86, 对应自由度为 2, p 值为 0 . 007. 

[29] 关于另外一种使用 IV 的方法，可以参见豪斯曼和泰勒的作品 （Hausman & Taylor , 1981)。 

[30] 这些方程之所以能够用 OLS 进行估计,是因为第一个方程中的两个 x 与两个 e 都保持独立，而这 
是因为 X 只受早先时点的 £ 的(间接)影响。同样的原理适用于第二个方程。 

[31] 如果两个方程同时进行估计，那么不管是作为因变量还是作为自变量，每个变量都必须用同样的 
方式进行表达。但是，如果要将它们分开进行估计，那我们可以(采用不同形式的表达），例如将 
一个变量的对数形式作为因变量，而在其作为自变量时使用非对数形式。 
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译名对照表 


average treatment effects 

平均处理效应 

between R 2 

组间确定系数 

bootstrap standard errors 

自举标准误 

case-crossover method 

案例-交叉法 

case - time -control method 

案例-时间-控制法 

censored causes 

删失案例 

censored intervals 

删失区间 

conditional maximum likelihood 

条件最大似然法 

constant variance assumption 

恒定方差假定 

convergence failure 

收敛失败 

cross-lagged coefficients 

交叉滞后系数 

deviance statistic 

离差统计量 

deviation coefficients 

离差变量系数 

difference scores 

差分值 

duration analysis 

存活期分析 

dynamic models 

动态模型 

endogenous variables 

内生变量 

event history analysis 

事件史分析 

exogenous variables 

外生变量 

failure time analysis 

失效时间分析 

first difference equation 

一阶差分方程 

first difference method 

一阶差分法 

frailty term 

脆弱成分 

generalized estimating equations 

广义估计方程 (GEE) 法 

generalized least squares(GLS) regression 

广义最小二乘回归 

gompertz model 

Gompertz 模型 

group mean centering 

组均值对中 

hausman test 

Hausman 检验 

hazard analysis 

风险分析 

incidental parameters problem 

伴随性参数问题 

instrumental variables(IV) 

工具变量 (IV) 框架 

jackknife standard errors 

刀切法标准误 

lagged dependent variable 

滞后因变量 

latent variables 

潜变量模型 

likelihood ratio test 

似然比检验 
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linear structural equation model 

线性结构方程模型 

log-linear model 

对数线性模型 

monte carlo simulation 

蒙特卡罗模拟 

NB2 model 

负二项模型 

odds ratios 

发生比率 

ordered logit model 

次序 logit 模型 

overdispersion 

过离散 

panel models 

面板模型 

panel survey 

固定样本跟踪调查 

partial likelihood method 

偏似然法 

path diagrams 

通径图 

poisson models for count data 

计数数据泊松模型 

proportional hazards model 

比例风险模型 

random effects models 

随机效应模型 

random intercept models 

随机截距模型 

random slope models 

随机斜率模型 

robust standar errors 

稳健标准误 

saturated model 

饱和模型 

shared frailty models 

共享脆弱性模型 

stratification 

分层 

strictly exogenous variable 

严格外生变量 

structural equation model(SEM) 

结构方程模型 (SEM) 

subject specific coefficient 

具体单位系数 

survival analysis 

生存分析 

time-invariant variables 

非时变变量 

unconditional maximum likelihood 

无条件最大似然法 

vector of coefficients 

系数向量 

within R 2 

(组、个体)内确定系数 

zero-inflated Poisson models 

零膨胀泊松模型 

zero mean 

零均值 
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序 


1886年，弗朗西斯 • 高尔顿 (Francis Galton ) 发表了题为《遗传身高向普通回归》 ( Re ¬ 
gression Towads Mediocrity in Hereditary Stature ) 的开创性文章，从而幵启了今天我们所 
知的线性回归统计方法的发展历程。通过分析205对父母及928个小孩的数据,高尔顿 
发现相对较高或较矮的父母生养的小孩倾向于不是那么高或矮，这一特征被统计术语概 
括为“向均值回归”。 

为了演示回归是如何处理此类身高数据的，我使用了一套相似但只有一个性别的数 
据，这应归功于高尔顿的徒弟卡尔 • 皮尔森 (Karl Pearson ) 0 下图标绘出了 1078对父子 
的身高状况(单位是英寸)，数据用小圈点表示，它们明显地遵循一种线性趋势，刻画出向 
均值(等于45英寸）回归的现象。 


60 65 70 75 

父亲的身高 



在本图中，我拟合了一条回归直线，用实线表示，斜率估计值为 0.514, 由一般最4 


二乘估计得到(这一估计及以后其他估计的双尾检验都比常规的 0.001 水平显著得多, 
因此这里就不报告了)。不管以谁的标准来看，这一数据的表现都很不错。不过,即使是 
在这一表现良好的数据里面,有些案例也比其他的更 异常: 我们很快就可看到图中右上 
角及左下区的某些案例离其他围绕在直线周边的大多数案例更远。如果这些案例太过 
极端，我们就可以从下列标准的快速“处理办法”中选择一 个:从 分析中剔除这些案例、重 
新编码(如果存在编码错误的话），以及在分析中纳入更多新变量。但如果没有处理这些 
异常 ( 或不那么异常)案例的合理可用的解决办法,数据分析者该怎么办呢？这正是稳健 
及耐抗 性回® 方法 (robust and resistant regression method) 派得上用场的地方。 

为了展示一下稳健回归,我对上述数据拟合了另外两条直线(使用的是 R 软件里的 
MASS 数据包），虚线表示的是用 MN4— 估计量 (MM-estimator) 估计得到的稳健回归线(斜 
率估计值 fO ,502} ， 点线表示的是通过将分位残差平方最小化 (minimization of quantile 
squared residuals) 的耐抗性回归估计 ( 估计过程中分位残差最大的案例被忽略 } 得到的 
直线(斜率 i0.442}。 可以看到，使用 MM— 估计得到的稳健回归结果，其斜率只比 0LS 
回归的稍小。不过，耐抗性回归得到的估计结果差别更大，所得出的结论表现出更严重 
的向均值的回归。由安德森撰写的这本著作的焦点在于有效性 (validity) 的(而非效率 
[efficiency] 的)稳健，它将帮助社会科学研究者理解这些方法，并学到稳健回归的原理及 
应用方法。 

在社会科学中，现代稳健及耐抗性回归方法还不太为人所知。这些方法之所以被称 
为“现代方法”，是因为它们通常属于密集型计算 (computation intensive) ，这是当前很多 
依赖今天的高速电脑的统计方法的一个特征。本书(尤其是其中关于回归方法的那些章 
节)在主要统计软件如 SAS 和 Stata 已经采用这些最新回归方法的情况下是非常及时 
的。本书通过一套统一的符号系统介绍了不同来源的多种稳健回归方法以及它们彼此 
之间的联系，这正是本书的杰出贡献之一。为了给读者们_些实际应用上的帮助，本书 
也讨论了不同方法的相对优势和不足。通过一本这样的书，社会科学专业的学生及研究 
者最终会发现这些 if 的回归方法和经典回归方法一样平常和容易使用。 


廢福挺 


第 1 章 I 绪言 


在定量社会科学中，回归分析是统计方法的主要干将。大量的问题都是由 
线性模型或者广义线性模型 (generalized linear model) 解决的。只要被恰当使 
用，回归估计能够为数据里的关系提供有效而简洁的概括。但如果盲目而机械 
地使用，回归分析也会导致错误的结论。异常观察案例的存在就是引起担心的 
原因之一，它们有时足以严重扭曲由一般最小二乘 (OLS) 回归所估计的结果，哪 
怕数据集很大。异常观察值也能对广义线性模型造成破坏性的损害，虽然这不 
是很常见。这进一 步缉化 了发现并恰当地处理回归分析中的特异值/异常值 
(outlier) 的重要意义。 

将“现代”回归方法，如非参数回归，作为诊断工具整合进一般线性模型及 
广义线性模型的框架，有很多好处(参见，例如 Cook and Weisberg， 1999 ； Fox, 
1997； Hastie, Tibshirani and Friedman 2001 )。 这些方法之所以被称为“现代 
方法”，是因为它们依赖于密集计算，即在拟合大量回归的基础上计算出最终估 
计结果，它们能够揭示出只使用 OLS 估计时常常难以发现的大量问题——尤其 
是非线性问题，当然也包括其他残差方面的问题。只是在个人电脑运算速度已 
经极大提高的最近这段时间，社会统计学家才意识到这些方法的好处。 

稳健回归是另一套接近密集计算型的现代技术。当我们面对特异值束手 
无策时——也就是说，它们不能被重新编码，也无法通过进行形式变换或在模 
型中纳人新因素的方式得到处理时——稳健回归就是 OLS 回归之外的合适选 
择。很多类型的稳健回归有着共同的目标,即提供不受特异值或偏态残差分布 
影响的无偏估计。这些方法最令人满意的地方 在于： 当误差项服从正态分布 
时，它们也会努力提供具有相对效率的估计。稳健回归技术至少还能作为探测 


潜在问题案例的有用的诊断工具 (diagnostic tool). 

虽然稳健回归在社会科学中应用得不广，但统计学家已经知道它的好处几十 
年了，并且一直在发展新的方法。最近，有几本出色的专著面向统计学家们讨论 
了这些方法(参见，如 Atkinson and Riani , 2000； Lawrence and Arthur , 1990; My ¬ 
ers ? 1990； Maronna * Martin , and Yohai , 2006; Wilcox , 2005)。 不过，除了一'些关 
于稳健回归的一般性讨论文章外（如 Western , 1995； Dietz , Frey and Kaloff ， 
1987； Wu , 1985)， 社会科学实践者们还很难找到一本对于众多不同稳健回归 
的差异进行探讨的专著。而您面前的这本书正试图改变这一状况。 

本书试图讨论各种用来探测及恰当处理回归分析中的“权势案例” ( influen ¬ 
tial cases ) ①的方法。第2章将界定一些对于理解估计的稳健性至关重要的术 
语。由于位置 ( location ) 与尺度 （ scale ) 的各种测度，构成了稳健回归技术的基 
础，因此这一章也对它们进行了讨论。第3章列出了异常观察案例及偏态分布 
影响 OLS 估计的不同方式。同时也简要介绍了一般线性回归中探测权势案例 

的一些传统技术-包括正式的统计检验和绘图法 (graphical methods )。 第4 

章讨论了各种线性模型稳健回归方法及其限制。第5章则讨论了稳健回归估计 
的标准误，主要集中在自助法 ( bootstrapping ) 上。第6章简要描述了广义线性 
模型和在这种模型中探测异常观察案例的几种诊断法。更重要的是，这一章将 
稳健回归方法扩展到了广义线性模型。第7章将对全书进行总结，并给出如何 
处理异常观察值的一些一般建议。最后，附录部分对常用电脑统计软件中的稳 
健回归工具进行了总结。 

全书的编排时刻考虑到实际的研究过 程:一 旦我们建立起某个模型以检验自己 
的假设，那么怎样做才能确保不会出现问题案例而使得我，们的推论和检验变得不准 
确呢？再有，如果此类问题案例真的存在，我们诙如何处理呢？在解答这些大问题 

之前，对稳健性-更确切地讲，强健 ( robust ) 且耐抗 ( resistant ) 的回归一一的一 

般概念进行定义，并为本书提供一个具有启发性的真实案例非常重要。 


①由于 “ 影响 ” 的汉语词义限制，在本书中表不观察案例对回归估计影响的 influence 或 influen¬ 
tial 被互译为权势、影响或影响力等，以使不同表达更为顺憾。——译者注 




何为“稳健 ’’ （ Robustness)? 


如休伯 ( Huber , 2004:1) 所言，“‘稳健’一词负载了很多有时并不完全一致 
的含义”。尽管如此，一般都认为对一个估计量 ( estimator ) 进行评价时，需要考 
虑两种类型的稳健性。这些是由莫斯特勒和图基 (Mosteller & Tukey ， 1977： 
203— 209) 总结的，他们认为一个稳健的估计量必须满足两个条件：（1)数据的 
微小改动，将不会造成估计的剧烈变化; （2) 在各种情况下该估计都具有高度的 
效率。第一个条件，反映的是估计量抵抗特异值干扰的抗扰性/耐抗性 ( resist ¬ 
ance )， 可以被看作效度的稳健性 (robustness of validity ) 0 换句话说，该估计量 
为数据的主体部分提供了有效的估计。第二个条件，与潜在的分布假定 
(underlying distributional assumption ) 有关，可以被当作是效率的稳健性 
(robustness of efficiency )。 这一条件意味着，估计量的分布假定未被满足对其 
精度影响很小(换言之， Xt 其标准误的影响很小)。 

本书主要关注效度的稳健性 (robustness of validity ) -也就是说，一个估 

计量在遇到异常观察值时保持不变的水平。当然，也会讨论效率的稳健性 
(robustness of efficiency ) ，尽管对于一个稳健估计量来讲，它只被看作是一个 
第二位的标准。因此,在描述了估计量效度上的稳健性后，我们将会对其效率 
进行一定的讨论。必须澄清的是，尽管有偏分布 （skewed distribution ) 和特异 
值/离群点 ( outlier ) 在概念上存在差异，但二者对于一个估计量可以造成类似的 
后果，不管是效度上的稳健性还是效率上的稳健性。不过，本书主要讨论的还 
是特异值的影响。简言之，本书对试图抑制异常观察案例影响的多种估计量的 
稳健性进行了比较。从这个意义上讲，抗扰性和稳健性在整本书中被当作同义 
词使用——它们都被用来指示单个观察案例对估计量的影响程度。 


稳健回归 (Robust Regression ) 的定义 


并不奇怪的是，对于回归分析而言，“稳健”也负载着很多含义。定义之一 



裹 « tM 分析 


与所谓的“稳健标准误 ” （robust standard errors ) 相关，后者常被用来处理某些 
模式的异方差问题 ( heteroscedasticity ) 或误差相关 (error dependency ) 问题。这 
一含义虽然很有用，但并不适合本书关于稳健回归的界定。前面已经说过，本 
书讨论的是各种专门试图适应——说得更好点，减轻——异常观察案例(影响） 
的方法。就这一点而言，稳健回归有两种定义与此直接相关。 

第一种将所有明确适应重尾型误差分布 （ heavy-tailed error distribu - 
tions ) 及特异值的回归模型都叫做稳健回归模型。第二种区分了稳健回归 
(robust regression ) 和耐抗回归 （resistant regression ) 。根据这种定义，稳健 
回归技术同时与效度的稳健性及效率的稳健性相关。这些技术用的是来自 
所有观察案例的信息，但给那些高度异常案例的权重较轻。很多稳健回归 
都考虑了残差异常值，自变量上的特异值(杠杆效应， leverage )， 或者两者的 
组合。这些方法中的大多数都能给出有效率的估计，不管误差分布是重尾 
分布还是正态分布。 

相反，通常被称为耐抗回归的方法一般很少考虑效率问题。这些方法的 
主要目标,在于防止异常观察值剧烈影响回归斜率的取值。它们不仅降低了 
异常观察案例的权重，并且经常设立一定的标准，以将特异案例完全剔除出 
分析。 

人们通常还会将稳健回归区分为崩溃点/失效点高的 (with a high break - 
down point ) 与崩溃点低的 (with a low breakdown point ) 0 另外一种分类方式 
是根据模型是否存在有界限的影响 (bmmded influence ) 进行的。这些概念将在 
第2章中详细 定义; 就目前而言，只要知道一个非常稳健的估计量应该具备受限 
制的影响和高崩溃点就够了。这些区别曾经非常重要，不过最新发展的稳健回 
归已经将高崩溃点和有限影响结合起来了。 

因此，就本书的目的而言，稳健回归被宽泛地定义为任何限制特异值对回 
归估计造成过分影响的回归。因此，这些不同的回归技术不会被分为“稳健”类 
或“耐抗”类。相反，本书正是从各种方法对已有方法做了怎样的发展这一角度 
来对它们进行探索的，当然，上述所有标准在各种方法的讨论中都会涉及。 
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一个真实的 例子： 20世纪70年代已婚夫妇的性生活频率 


也许大家都知道，异常观察案例在小样本情况下会给回归估计带来问题， 
而且这一点从直观上就能理解。如果《很小，用以平衡高度异常案例的个案就 
少。相反，数据很大时，异常案例要严重改变回归平面会难很多，因为有大量观 
察案例可以平衡它们。以简单回归为例，我们知道，回归直线是通过将残差平 

方和最小化而得到的，其中 a 即％的观测值与回归直线预测值 A 之差 

U 如果在几千个观测值中只有一个极端值，那它要想将回归直线 

拉向自己非常困难，因为还有如此众多的与之对抗的残差需要维持在很小的规 
模。当然，这并不是说异常案例在大数据中不能对回归估计造成严重破坏。下 
面的例子就能很好地说明它们如何可能造成此种影响。 

加索 ( Jasso , 1 9 8 5 )使用全国生育调查 (National Fertility Studies ) 跟踪数据 
(panel data ) 研究了在控制队列效应的情况下，年龄与时期对1970—1975年期 
间已婚夫妇每月性生活频率的影响。她的主要发现为：（1)在控制了队列和年 
龄效应后，月经周期影响为负； （2) 控制月经周期和队列效应后，妻子的年龄有 
着正向作用。这些发现与以往的研究结论大不相同，因此不奇怪的是，文章在 
《美国社会学评论 》 (Amerkart Sociology Review ) 发表了 。 

值得赞扬的是，加索对她所用的方法讨论得非常清楚，因此其他研究者可 
以重现她的结果。卡恩和尤德利 (Kahn &* Udry , 1986) 正好做了这样的重现工 
作，并对加索的原初分析提出了几点疑虑。首先，他们认为有4个案例似乎被错 
误地编码成了 88。他们认为这些取值实际上应该被编码为99,而这在该数据集 
中是缺失信息的赋值。他们得出这一结论是因为没有其他的受访者报告过超 
63的取值，且 "• 5%的观测值小于40。其次，通过使用模型诊断技术，卡恩 
和尤德利还发现了另外4个特异值。这4名受访者在前一轮调查中报告的次数 
要少很多，这意味着这些特异案例并不典型，可以正当地从模型中移除。最后， 
他们认为加索没有加人婚龄长度与妻子年龄之间的交互项。卡恩和尤德利对 
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这一数据的再分析^^刨除了这8个特异值(从超过2000个案例的样本中)并 
加上交互项——完全改变了原来的结论。如表 1. 1所示，在特异值被移除后，加 


索的新发现看起来就远远没有那么重要了。更具体地说，妻子的年龄(考虑到 


非线性模式的存在，已经取了对数)在标准水平上已经不再统计显著了。 


表 1.1 性生活频率的决定因素 



模型 1 

模型 2 

模型 3 

模型 4 

月经周期 

-0. 72^ 

-0. 67*** 

-3. 06** 

一 0. 08 

妻子年龄的对数 

27. 61** 

13. 56 

29. 49 

一 1,62 

丈夫年龄的对数 

— 6. 43 

7. 87 

57.89 

— 5, 23 

婚龄长度的对数 

—1. 50*** 

一 1_ 56 

-1.51* 

1.29 

妻子怀孕状况 

一 3-71 

-3. 74*** 

一 2. 88 ^ 

-3. 95* 

有 6 岁以下小孩 

—0. 56** 

— 0_ 68*** 

-2.91*** 

, 一 0, 55** 

妻子处于在职状态 

0. 37 

0. 23 

0. 86 

0.02 

丈夫处于在职状态 

—1. 28” 

—1. 10^ 

-4. 11*** 

—0. 38 

R 2 

0. 0475 

0. 0612 

0. 2172 

0. 0411 

n 

2062 

2055 

243 

1812 


资料来源 :引自 1^^抓(11；也7(1986，表1)。 

><0.05; *><0.01; **><0.001 。 

注 :模型 1: Jasso 的原始分析。模型2:4个“错编”案例和另外4个特异值删 除后; 模 
型 3: 婚龄小于或等于 2 年(已排除错编及极端案 例）; 模型 4: 婚龄大于等于 2 年(已排除错 
编及极端案例)。 


加索在她的回应 ( Jasso , 1986) 中 认为: 卡恩和尤德利的分析将产生“样本 
删截偏差 (sample truncation bias )” 的新问题。她表示，通过移除极端值，卡恩 
和尤德利人为地将因变量局限在了其值域的一个小片段内。她反对这一做法， 
并主张研究者不应该因为异常观察案例未能服从一己信念就将它们从样本中 
删除。她还表示，对于一个大规模的全国性随机样本来说，选出几个差异较大 
的观察案例是完全可能的，因为根据文化和地区的不同，夫妻性生活频率的差 
异很大。 

这个例子向我们说明了三个要点。第一，它展示了通过使用诊断工具发现 
潜在问题案例所具有的价值。第二，它展示了在大样本中极端值是如何影响回 
归估计的。第三，其中的争论，说明并不存在被普遍接受的异常案例处理办法。 
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发现存在权势案例后，决定釆取何种动作，必须有丰富的知识作为基础。换言 
之，研究者必须凭借自己的判断力做出决定。至于这个具体的例子，我把决定 
哪一种特异值处理方式最好的机会留给那些在这个话题上实际知识更加丰富 
的人。就本书的目的而言，上面的讨论已经足够了，它充分地说明 ：即使 是在一 
个超过2000个案例的样本中，仅仅只有8个特异值就能如此剧烈地改变研究的 
结果。如果有人认定这些案例不宜忽视，那他也可以像卡恩和尤德利一样直接 
删除它们，或者采用稳健回归。 



第 2 章 I 重要背景 


接下来我们讨论对于评估一个估计量的稳健性非常重要的各种概念。在 
此，偏差 ( bias ) 、一致性 ( consistency ) 、崩溃点/失效点 (breakdown point ) 以及影 
响函数 (influence function ) 等概念将会得到定义。而且这些概念都将自始至终 
贯穿全书。 


偏差与一致性 (Bias and Consistency) 


假定样本 Z 有 n 个案例。令7；(乙，…，乙)为参数0的一个估计量，且其 
概率分布为 P 。 换句话说，将: T 运用于2即得到总体参数的估 计值： 

T ( Z ) = 0 [2.1] 


一个无偏估计量需 满足： 


E [ T ( Z )]= E (0) =d [2.2] 

也就是说，无偏统计量的平均值等于总体的参数。由此可以推出 ，一 个估 
计量 T ( Z ) = 6 的偏差通过下式可以 得到： 

bias E [ T ( Z )-^] [2. 3] 

选用一个“最好”的统计量，无偏性无疑非常重要，但一致性也需要考虑。 
如果随着样本规模增大估 计量& 向0收敛，那它就具备一致性。我们也可从均 
方误 (mean squared error ， MSE) 的角度来理解估计量的一致性。就此而言，满 
足如下条件的^就具备一 致性： 



lim MSE(0 )=0 

n^oo 

崩溃点 / 失效点 (Breakdown Point) 

崩溃点 (BDP# 1 ] 是一种估计量的抗异常值干扰能力的全局性测度 (global 
measure of the resistance )。 准确地讲，它是一个估计量在不产生任意结果 ( ar ¬ 
bitrary result ) 的前提下能够容忍的离群案例(如特异值或聚集在分布尾端尽头 
的案例)的最小分量或百分比 （ Hampel ， 1974； Huber , 2004) 0 假定所有的可能 

“破败 (corrupted)” 样本-其中有 m 个观察案例被替换为任意值(即不符合数 

据一般趋势的观察案例)——为 Z 。 那么，由这种替换所可能造成的最大影 
响 [2] 是： 

effect(m ； T, Z) = F || T(Z r ) - T(Z) || [2. 5] 
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[2.4] 


其中上确界 ( supremum ) 是所有可能的样本数。如果 effect ( m ; T ， Z ) 无 
限 ( infinite ), 那么这 m 个特异值对 T 有任意大的影响。换句话说，该估计量“崩 
溃”了，不能充分代表数据主体部分的模式。更一般地讲，一个有限样本 Z 的估 
计量: T 的崩溃点是这样定 义的： 

EDP ( T , Z ) =min {^： effectCw ； T, Z) 无限 } [2. 6] 

一个估计量最高的可能崩溃点是50%，也就是说多达一半的观察案例可以 
被忽视 ( discounted ) 。高于 0. 5的崩溃点是不可取的，因为它意味着该估计量仅 
仅与一小部分数据相关。 

稳健估计量的目标在于充分地把握数据的主体模式。换句话说，崩溃点大 
于零就算一种好的属性。实际上，汉普尔等人 (Hampel et al . , 1986) 认为 :一个 
数据集通常会有多达10%的案例偏离数据主体部分所具有的一般模式,这意味 
着稳健估计量的崩溃点至少要达到10%。不过，后面我们即将看到，有些最早 
提出的稳健回归估计量的崩溃点为0或者非常接近于0。 
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影响函数 (Influence Function) 


估计量的影响函数最先由汉普尔 （ Hampel ， 1 9 7 4 ;又见 Hoaglin，Mosteller 
and Tukey , 1983：350—358； Jurefckova and Picek ，2006:27—32) 提出，它衡量 
的是对估计量了的理论假定分布 F 造成污染的单个观察 案例％ 的影响 （ im ¬ 
pact )。 换句话说，如果崩溃点衡量的是全局稳健性 (global robustness )， 那么影 
响函数 ( IF ) 衡量的就是局部抗扰性 (local resistance ) ，更确切地讲，对估计量的 
极微小扰动 (infinitesimal perturbations ) 0 影响函数通常也被称为影响曲线 ( in - 
fuence curve ， 从单个样本来看，又称为灵敏度曲线，即 sensitivity curve )， 估计 
量： T 的影响函数是这样定 义的： 


IF ( Y , F , T ) - lim T(F) [2. 7] 

A-o A 

其中色是在: V 点(即在: y ， 或者 0 点)的概率质量为 X 的污染度 (the point of con ¬ 
tamination at y ) o 换言之， A 给出了在: y 点的污染比例。简单地讲， IF 表示在： y 点 
增加任意特异值所引起的估计量的变化,这一变化经过了损害比例标准化。 

有界的影响函数 (bounded influence function ) 是稳健估计量应该具备的属 
性之一，因为它意味着一个案例的影响最多也就达到该高度。一个没有限制/ 
边界的影响函数允许“被污染”观察值的影响持续增长，不管它们有多么异常。 
也就是说，偏差值的影响根本没有界限。后面我们将会看到， OLS 回归的影响 
函数是没有边界的，且与残差的大小成比例，这意味着偏差极大的残差能够完 
全毁坏 OLS 估计量。很多早期稳健回归方法的影响函数也是没有边界的，结果 
其抗扰性有时不比 OLS 好。不过，今天所用的大多数稳健回归都具有高崩溃点 
和有界影响函数。 


相对效率 (Relative Efficiency) 


另一个对于理解稳健估计非常重要的概念是效率。如果目标是要从样本 
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数据来对一个更大的总体进行推论，那么我们就需要有一个效率尽可能高的无 
偏统计量。从严格意义上讲,估计量的效率取决于它可能的最小方差与实际方 
差的比率。只有当这一比率等于1时——也就是说，当它的方差等于可能的最 
小方差时一个估计才被认为是有效率的。 [3] 如果一个估计量能够在大样本 
时达到有效率，就被认为是渐近有效率的 (asymptotically efficient ) 。更一般地讲， 
抽样方差相对较小，从而标准误也较小的估计量被认为是高效率的。由此可以 
推知，有些估计量会比另外一些效率更髙，因此，相对效率 (relative efficiency ) 的 
概念在对各种估计量进行评估比较时非常有用 。 

对于大多数种类的估计，总会有一个估计量在一定的假定条件下效率最高。 
我们可以用这个估计量作为比较其他估计量的效率的标准。假定对于总体参数& 
我们有两个估计量乃 和乃。 如果乃的效率最高， T 2 较差，那么乃的均方误将 
相对较小 。 t 2 的相对效率由它的均方误与乃的均方误的比率 决定： 

EffiviencyCTx ， T 2 ) = 琵没=雾] [2. 8] 

如果线性假定 ( linearity )、 误差方差恒定 (constant error variance ) 及误差项独 
立 (uncoxrelated errors ) 这几个假定都满足的话，那么 OLS 估计就是最有效率的无 
偏线性估计。因此，稳健估计量的相对效率就是通过在这些条件下与 OLS 估计量 
进行比较得 到的。 尽管在这些条件下没有哪个稳健回归估计的效率比 OLS 回归 
更高，但是一些估计量不仅具有极其相近的效率，而且同时具备抵抗特异值干扰 
的良好属性。不过，稳健回归估计的相对效率必须被小心地对待,因为通常所评 
定的效率仅仅是渐近效率而已 ( Ryan ， 1997:354)。也就是说，相对效率只有在样 
本规模足够大时才有 意义。 多数稳健估计量在样本规模很小时的属性尚不太清 
楚，因此，在这种情况下，人们通常会使用自助法来获得标 准误。 

位置测度 / 位置量数 (Measures of Location) 


尽管存在各种各样的回归，但它们通过自变量来预测因变量的条件取值 
时，都考虑了反应变量本身位置及尺度 ( scale ) 的测度。例如， OLS 就是从一个 
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或多个自变量 X 来估计因变量 J 的条件均值的。由于 OLS 建立在不具有抗特 
异值干扰能力的平均值基础上，因此它的估计同样会被特异值影响。类似的， 
来自广义线性模型 (generalized linear models) 的估计也不能完全抵抗特异值干 
扰，因为它们估计的是某种线性预测值 （linear predictor) 的条件均值。稳健回 
归方法依赖于更稳健的位置和(或)尺度测度。因此，在探讨运用了这些位置和 
尺度测度的回归技术之前，对这些测度本身进行讨论会有好处。 

位置的测度即对分布中的某个位置进行刻画的量 （quantity)。 最典型的， 
对分布中心的测量就非常重要，当然其他位置测度(如，分位数)也可以被考虑。 
假定随机变量 Y 的分布为 F。 如果对于任意常量 a 和6,估计量 0(Y) 满足下面 
四个条件 M ，那它就是 F 的位置测度之一 (Wilcox，2005:20-21)： 

a. d(Y + a ) -0( Y)+a 

b . 6 (- Y ) =- d ( Y ) 

c . 意味着 0( Y)>O 

a eibY) - wen 

条件 U) 要求所有的 Y 值都加上一个常量后，位置测度将增加同样的量，这 
被称为位置同变性 (location equivariance)。 条件 (a)、（b)、（c) 合在一起，要求 
该测度的取值在 Y 的值域范围内。而条件 (d) 意味着该测量需具有尺度同变性 
(scale equivariance) 。换句话说，如果所有 Y 值都乘以一个特定的值(换言之， 
尺度发生变化），那么位置的测度也会发生同等比例的变化。 


均值 (the Mean) 

最常见的位置测度就是均值。假设有独立观察值^和一个估计总体分布 
中心 P 的简单 模型： 

yi = + € { [2_ 9] 

其中&代表残差。如果潜在分布为正态分布，那么样本均值是效率最高的; U 的 
估计量，得到的拟合模 型为： 
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yi = y + ^ [ 2 . 10 ] 

尽管均值使用非常广泛(包括在 OLS 回归中），但它并不是一个稳健的位置测 
度。如果该分布为重尾分布或者存在特异值，那均值比其他很多中心测度 
(mearsufes of center ) 的效率都低，更重要的是，（这种情况下）它经常具有误导 
性。哪怕只增加一个被严重错误编码的案例，都能改变它的估计。 

试看下面5个 y 变量的观 察值： 

3^1 = 3 ^2=3 3^3 = 4 : y 4 = 5 ： y 5 = 5 

通过使用大家都知道的样本均值计算公式可得到5 = 4。现 

n 1=1 

在将其中的一个观察值，比如 M ，替换为一个“坏”值(假定它是错误编码值)，得 
到各 y 值 如下： 


: yi = 3 3^2 = 3 y z = 44 : y 4 = 5 = 5 

对于这一新数据而言，夕= (3 + 3 + 44 + 5 + 5)/5 = 12。这一均值被严重地拉 
向特异值，它是特异值被排除时的3倍。实际上，这个“被污染”均值比“坏”观测 
值之外的任何观察值都要大很多。 

因为仅仅一个观察案例就可以使得均值崩溃失效，因此它的崩溃点是 BDP 

当 n 很大时，这个取值在效果上相当于是0。同样成问题的是，每个案例 

对均值的影响与^的大小成比例。而均值是通过将最小二乘目标方程 （least 
squares objective function ) 最小化得 到的： 

= 0 [ 2 . 11 ] 

i=i 

对 y 求导得到影响函数 如下： 

IFy(y^> = 2y [ 2 . 12 ] 


显然，这对一个并非“表现很好 (well behaved )” (即带特异值或长尾）的数据来 
说，不是什么好的属性。 
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消除特异值对于均值造成影响的策略之一是使用一种两步程序 （ twc^step 


procedure ) : 先将特异值瓶别出来，然后在计算均值前将它们删掉。汉普尔 
( Hampel , 1974) 认为 :使用 一种稳健的位置测度往往比两步法更好。换言之， 
很多估计量比均值更加稳健。 


a- 截尾均值 (a-Triimned Mean) 


一个相对稳健的中心测量 （ measure of center ) 是截尾均值 （ trimmed 
mean) ， 这种均值通过删除分布尾端的观察值来降低特异值或重尾的影响。令 
%，•••，>表示来自一个随机样本的某变量的观察值。我们先将5值从小到大 
顺序排列 ， y ( l ) <: v (2) < …< y(n )， 并确定需要截除的量0 < a < 0. 5 ， 然后 
用排除了 〆 = [^])个最大值和最小值后的观察值计算出平均值，其中 [ cm ] 
取整为最近的整数值。截尾均值的计算公式可写成 [5] : 




: yom) + … +3W) 
n~2g 


[2. 13] 


截尾均值的崩溃点取决于剪除量，因此= a 。 一种简单的拇指法则是 
从分布的每个尾端各移除10%的观察案例（即设《 = 0.2)。莱杰和罗马诺 
(Leger and Romano ，1990) 进一步建议分别计算 a = 0, 0. 1及 0. 2时的均值， 
并从中选出标准误最小的那个值作为最终的计算值。剪除量同样决定着影响 
函数。与均值不同，截尾均值的影响（函数)是有界的，尽管在％和处有着 
明显的增长 [6] 。它的影响函数可以 写成： 、 


y a ~~ ut 

1 _ 2a 


IFy t (y) 


y — 
l ~2 a 


当: y < 3^ 时 
当: y a < : y < Mi 时 


yiz 


~Ut 


l-2a 


当 : y > ： yi~a 时 


[2.14] 


其中 A 为截尾均值(见 Wilcox , 2005:29)。截尾均值的相对效率取决于分布情 
况。如果分布是正态的而裁剪过量，那么精度会降低，因为它会导致相对于较 
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小的〃来说太大的宽度 ( spread )， 进而扩大了对抽样分布宽度（即标准误)的估 


计。相反，如果该分布带有重尾或特异值，截尾能够提高效率，因为^的方 
差——进而其均值的抽样分布的方差——减小了。究竟截尾占多大比例，只有 
在对分布做了仔细检查之后才能决定。 


中位数 (The Median) 


中位数 M ， 即把数据从小到大排列时出现在中间位置的; y 的取值。要找到 
中位数，首先得将观察值按照从小到大的顺序排列 y ( V < : y (2) < …< ^( n)o 
中位 数即： 

^ ~ yarr^um (当 n 是奇数时） 

M = 0. 5^(„/2) + 0. 5 ： y(„/2+i) ( 当 n 是偶数时） 

同样的，中位数也得最小化目标函数的绝 对值： 

2 1^- — ^ I = 0 

i=i 

取方程 2. 15 的导数，即得到影响函数的形状 

1 当 y >0 时 
IF M ( y ^ = ^ 0 当 : y = 0 时 

、一1 当 ： y < 0时 

如这一受限的影响函数所示，中位数对特异值有着高度耐抗性。它的稳健 
性从它的 BDP =0.5 也能反映出来。中位数的不足之处在于，当分布为正态分 
布时它的效率要比均值低。在这种情况下，均值的抽样方差是 5 Vn , 而中位数 
的抽样方差是 ^7272, 是前者的; r/2 = 1. 57 倍。 


[2.15] 


[2. 16] 


尺度测度 (Measures of Scale) 


令 Y 代表一个随机变量。所谓尺度测度，是满足下列条件的任意非负函数 
r(y) ( Wilcox , 2005 ： 34) 



mse 分析 


a . 该测量是尺度同变 (scale equi variant ) 的，意即 r ( aY ) = ar ( Y ) ，其 
中是大于 0 的任意常数。 

b . 读测量是位置不变 （ZooUfow i ⑽ ariarU ) 的，意即 r(Y + 6) = rOO ， 
其中6是常数。 

c . 该测量是符号不变 （sign invariant ) 的， r ( Y ) = r (— Y ) 

尺度测度实在太多，无法在这里全部囊括进来，因此，我们集中讨论那些与稳 
健回归最相关的测度。我们将主要探讨特异值如何影响尺度估计的大小 ( magni ¬ 
tude )， 而很少关注效率问题。 关于后者的更多讨论请看 Wikm ， 2005。 

标准差 

使用最多的尺度测度是标准差^它是这样定 义的： 

I 免 (yi - 夕) 2 

〜 中 1: 1― [2 . 17] 

如果 y 的分布是正态的，这就是一个最合适的尺度测度，因为它具有极高 
的效率。但是，标准差在重尾分布或者带有特异值的分布面前并不稳健。因为 
它是基于均值的——后者的影响函数没有上限且崩溃点为0——标准差继承了 
这些特性。因此，稳健回归技术通常使用其他尺度测度。 


平均离差 (Mean Deviation From the Mean) 


相对于均值的平均离差 ( MD ) 有时被简称为平均离差 (Mean Deviation ) ，它 
是这样定 义的： 



[2.18] 


当 y 的分布带有长尾时，与标准差相比， MD 具有相对效率，但它仍然具有 
崩溃点为0以及影响函数没有界限的不良性质。尽管在一些早期稳健回归技术 
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中很重要，不过在目前存在众多更为稳健的尺度测量的情况下 ，MD —般被认为 
已经过时了。 


相对于中位数的平均离差 (Mean Deviation From The Median) 

相对于中位数的平均离差，即 MDM ， 在稳健性上要比 MD 有所改进。 
MDM 不是计算^与均值的绝对差异，而是计算它们与中位数 M 的绝对距离， 
结 果为： 

2 I yi — M| 

MDM = ^ - [2, 19] 

n 

尽管 MDM 使用的是中位数，但它仍然依赖于平均离差，因此它的崩溃点 
= 0而且影响函数没有界限(具体请参见 Wilcox , 2005:35)。也就是说， 
相对于中位数的平均离差对于极端特异值和长尾并不免疫，因此它并不是用于 
稳健回归的理想尺度测量。 


四分位差 (Interquartile Range) 


<1-分位差 QR q 是一组影响有界限的尺度测量，它们的崩溃点非常髙。任意 
特定的 g - 分位差是这样给 定的： 

QR q = : yi - 9 — 其中 0< g <0.5) 

令 g = 0. 25 (也就是 0. 25分位与 0. 75分位之差），即得到四分位差 ( IQi ?) ， 
它的崩溃点 BDP = 0,25,它是最稳健因而也是最常用的分位差 （ Wilcox ， 
2005:35—36)。四分位差的影响函数由3/4分位的影响函数减去1/4分位的影 
响函数(也就是 JFo .75 - / F 0 . 25 ) 给定： 


IF m (y) 


- jp 1 ~ t —C 如果 : y < : yo.25 或 ： y > : yo.75 

jyyo. 25 ) 

—C 如果 : VO. 25 ^ ^ ^ 3^0.75 


[ 2 . 20 ] 


其中: 
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c = 


f^yo. 25 ) 


1 


/( 加 . 75 ) 


[ 2 . 21 ] 


IQR 的崩溃点高并且影响函数有界，这些性质正是我们需要的，因此其在早期 
的稳健回归技术中有所使用。它在后面即将介绍的分位回归中扮演着一定角 
色。不过，尽管四分位差非常简单，但是因为还有更稳健的尺度测量，因此在新 
近发展的稳健回归中一般很少使用。 


中位绝对离差 (Median Absolute Deviation) 


中位绝对离差 ( MAD ) 是这样定 义的： 

MAD = median | 一 M | (其中 M 是中位数） 

MAD 完全取决于围绕中位数的变异，因此比标准差及和均值相关的绝对离差 
抵抗特异值干扰的能力更强。 [8] MAD 达到了最高的崩溃点 BDP = 0. 5,它的 
有界影响是这样定义的： 


IFMAD ( y ) 


sign ( \ y — M \ — MAD ) 

/( M + M 4 D ) - fCM - MAD ) 

_ EM) _ 

2[/( M + M 4 D ) +/( M - M 4 D )] 


sign (y — M ) 


[ 2 . 22 ] 


其中 /( W 是: y 的概率密度函数(更多内容见 Wilcox ， 2005:35)。 MAD —个诱 
人的特征在于它可以通过乘以 1. 4826[近似于1/步― 1 (3/4) ，其中中是正态概率 
密度函数]而得到调整，从而保证在样本规模很大时的一致性。所有这些特征 
都使得 MAD 成为一个有吸引力的稳健回归的尺度测量，至少是作为一个初步 
估计。 


M- 估计 （ M-Estimation) 

M - 估计包括很多估计方法，它们将最大似然的思想推广用于尺度和位置的 
稳健测度 ( Huber ， 2004)。 M 估计也是很多稳健回归估计的基础，包括那些被 
分类为 M 估计， GM 估计， S 估计以及 MM 估计的方法。这些都将在第4章得 



现代稳键回归方法 


145 


到讨论。通过适当的公式表达， M 估计非常稳健，尤其是对于位置的估计。与 
其他用于大样本 （ n >40) 的稳健测量相比，它们也具有相对效率，并且随着 n 
变大而更有效率 ( Hogg ， 1974;也见 Wu ， 1985)。 

假定 M ， …，％相互独立并且都服从相同的分布 F (: y ; 0)。令 TJm ，…， 
30 是刻画该分布60的未知参数0的一个估计量。那么该估计量的似然 
值是这样定 义的： 


71 

yi ， …， y n ) = d ) [2. 23] 

i=i 

其中 / O ; 0) 是与 0) 对应的概率密度函数。而最大似然估计结果是令似 
然函数最大化或(等价地)令目标函数 〆 : V ; 0) 最小化的0 值： 


n 

—log Z = 0) 

i=i 


[2. 24] 


将目标函数限定为带有严格连续导数少 （• ）的任何可微函数 (fimctiop that is 
differentiable with an absolutely continuous derivative ) ，就得到最大似然估计 


量了 n ， 


其中: 


71 

2^； 0 ) = o 

t=i 


[2. 25] 


d ) Q / dd ) p ( y 9 d ) 

= 0/3 d)log f ( y ; Q ) 


[2. 26] 


为了使最大似然估计——或者 M 估计——的解为唯一， 〆 ％ 0) 必须为严格的 
凸函数，这样少 (3 M 仍才会严格递增。使用 〆 ％ 0) =- log /(^;0) 得到的是普 
通最大似然估计。（见 Huber , 2004:第3章） 

M 估计有很多不同的形式，其性质取决于对 〆 • ），或者与其等价的少 （•） 
的选择。如果趴 •） 是没有边界的，那么估计量的崩溃点为 BDP = limBDP = 
0 。相反，如果少（ •） 是奇函数并且有界，那么 〆 • ）以0为中心对称。得分函数 
(score function ) 少（ • ）的形状与汉普尔 （ Hampel ，1974) 提出的影响函数的形状 



146 


高蜒 S 扫分析 


相同。更具体地说， IF ( y ； F , T ) = 1K3O / 7CF )， 其中 y ( F ) =\ f ( y ) d ^( y ) 0 

比例常数 [ yCF )]— 同时取决于少和概率密度函数 /( 3O 。 也就是说是负的 
得分函数（参见 Jureckova and Sen, 1996; Hoaglin et al. ， 1983:356 )。 


位置的 M 估计 (M-Estimation of Location) 


如果总体的均值是随机变量 Y 的期望值。令 〆 3^ — A ) 为测量相对于位置 
估计 A 的距离的目标函数。 

d) = [2. 27] 

其中 S 是分布尺度的一个测量， C 为通过定义分布的中心和尾巴来对估计量的 
稳定程度进行调整的细调常数。尽管 M 估计具有位置同变性，但它们并不具备 
尺度同变性，因此细调常数是必需的。 c 值越小，该估计抵抗特异值干扰的能力 
越大。 

取等式 2. 27的导数，就得到影响函数的形状。 M 估计值即能够解出下一 
等式的 f 的 取值： 


[2.28] 

尺度测量和位置测度是被同时估计的，因此需要一种迭代的估计程序(具体细 
节见 Huber ，2004) 0 关于估计的更多细节将在第5章的回归的 M 估计中给 
出。在这里，我们接着讨论由均值延伸而来的一般解释 (continue with a general 
explanation extending from mean ) 。 

均值的 M 估计基于最小平方目标 方程： 

piy\ <9) = -y (y — fl ) 2 [2. 29] 

等式 2 . 28 的导数表明(案例的)影响与 j 值成 比例： 

9) = (y — p.) [2, 30] 
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为了计算一个比均值更稳健的 M 估计，我们只需要将最小平方目标方程替换为 
另外一个给极端值较小权重的方程即可。 Huber 权重函数 (Huber weight func - 
tion ) 和双权数函数 ( biweight functions ) 是两种最常见的选择。 


Huber 估计 (Huber Estimates) 


Huber 权重函数在分布的中心时表现得像均值和与之相连的最小平方目 
标函数(也就是说 :观察 案例被给予相同的权重）。但在分布的两端时，有点像 
中位数及与之相关的最小绝对值目标函数，它给分布尾部越靠外的观察值的权 
重越小： 


~^ y 2 如果 y^c 


pu(y 9 0 ) = 1 

c IJI — \ ct 如果 7 > c 


[2. 31] 


因为目标是产生一个能抵抗特异值干扰的估计，所以 M 4 D 通常被用来计算尺 
度测量 S 。 当总体服从正态分布时，定义 S = M 4 D /0. 6745,得到 S 估计的 tr(S 
estimating a ) 0 遵照休伯 （ Huber ， I 964 ) 的建议，设定 c = 1. 345比较方便(统计 
软件中使用的也是这一标准），它能够较好地抵抗特异值的干扰 （1. 345/0. 6745 
兰 2 MADs ) 并且相对效率接近95%。 

计算等式 2. 31的导数，得到影响函数的 形状： 

'c (如果 ： y > c ) 

少 h (: y ; 没） = < ：y (如果: y <| c |) [2. 32] 

、一 c (如果 ： y <_ c ) 

最后，少 （• ）的导数可以算出给予每个观察案例的 权重： 

^ H ,( y ) = J 1 [ 2 .33] 

U / I y I (如果 ： y > c ) 

双权数估计 (Biweight Estimates) 


双平方权重 (Bisquare weight ) ，也被叫做 Tukey’s 双平方，它与 Huber 权重 








双权数估计量 


Huber 估计量 



: y 


均值 

1.0 
0.8 


So. 6 



y 


图 2.1 常用 M 估计置的权重函数与均值(的权重函数)的对比 


高缠回妇分析 


的主要区别出现在分布尾部的顶端，在这里双权数目标函数能更好地抵抗特异 
值的干扰。 


1 - 1 . 


pm(y; ffh 


(如果 I )1 < C ) 


(如果 bl > c ) 


[2. 34] 


当细调常数 c = 4. 685时， 4. 685 X S 兰 7 MAD , 如果样本是从正态总体中 
抽取的，它能产生95%的效率 （ Htiber ， 1964)。计算等式 2. 34的导数，可以看 
到影响函数趋近于0的速度非常快。 




取方程 2. 35的导数，得到权重 函数： 


(如果 I ：y I < c ) 
(如果 I : y I > 


[2. 35] 


(如果 I ：y I < c ) 
(如果 I 3^1 > ^) 


[2. 36] 


图 2. 1呈现了将带有默认细调常数的 Huber 函数和双权数函数应用于同一个 
值域范围为一 10到10的分布时的情形。可以看到，相对于与均值(它给所有的 
观察值同样的权重)的相似程度，两个 M 估计量的表现彼此更为相像 。 Huber 
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高级回归分析 


和双权数函数在分布的绝大多数的部分作用近似，除了正中间和尾巴的末端 
(extreme tails )。 双权数函数给所有绝对值大于 5( | ^ | > 5) 的观察值的权重 
为 0 。 相反， Haber 权重从不会让一个案例的权重为 0, 而且会让更大比例的案 
例的权重等于1。 

尽管 Huber 权数函数及双权数函数是 M 估计中最常用的，不过还有很多 
其他选择，其中一些呈现在表 2. 1中。关于这些估计量的更多具体内容，尤其是 
相关细调常数的建议值，可以看安德鲁斯及其他人的作品 （ Andrews ， et al . ， 
1972) 还有拉姆齐的文章 (Ramsay ， 1977)。 


尺度的 M 估计量 (M-estimator of scale) 


将 M 估计扩展到对于尺度的估计相对直接 ( Wilcox ， 2005:92—98)。同样 
的，主要的思想是找到一个给极端案例赋权较小的函数。尺度的 M 估计的一般 
形式是由位置的 M 估计的渐近方差定义的。 


^ K 3 r 2 E[^(Z,)] 

5 { EC ^ CZ ,-)]} 2 




yi ―邮 

cS 


[2. 37] 


其中 > 是位置的 M 估计， c 是一个正的细调常数， S 是通常被设为 MAD 的尺 
度的最初测量，求是得分函数。和位置的 M 估计一样， Huber 权数函数和双权 
数函数是典型的选择。因为它们使用得更为频繁而且已经表明效率更高，这里 
我们集中关注后者，它带来的是双权中位方差 (biweight midvariance) (见 Lax, 
1985) 

双权中位方差抵抗特异值干扰的能力强，且很有效率，崩溃点接近 0. 5(Ho- 
aglin et al. , 1983) 。 它是这样定 义的： 


从 ，) 2 (1 — Z?) 4 

p 2 _ _ 

2 [(1 — Zi ‘ )2(1 — 5 之)] 2 

其中机是^的中位数 ，且： 


[2. 38] 
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Z t = [2. 39] 

非常值得注意的是，等式中的求和被限定在 M < 1的条件下。细调常数 C 通常 
设定为9,尺度设定为 MAD ， 能够得到最大的效率。 

各神估计的对比 

铡 2. 1: 仿真数据 (Simulated Data) 

表 2. 2对比了前面讨论过的一些估计量在用于仿真数据时的稳定性。第1 
列是将这些估计量用于来自标准正态分布 y 〜 AKO , 1) 的20个随机观测值 
(取值从一 2. 2到 1. 7) 的情况。换句话说，这些数据都表现良好，没有特异值。 
第2列将这些估计量用于同样的数据，但增加了一个取值为60的极端特异值， 
假定它是被错误编码的案例。这些估计量的崩溃点放在了第3列。 


表 2. 2含有极端特异值和不含极端特异值的仿真数据的位置及尺度测度 


估计量 

崩溃点 

所有案例 

特异值被移除 

位置测度 




均值 

0 

0 

2. 85 

(X 截尾均值 

a (剪除比例） 

-0. 09 

— 0. 04 

中位数 

0.5 

-0. 02 

0. 005 

M 估计 

0. 5 

— 0. 12 

— 0. 03 

尺度测度 




标准差 

0 

1 

13.13 

平均离均差 

0 

0. 71 

5. 44 

平均离中差 

0 

0. 61 

2. 89 

四分位差 

0. 25 

1. 07 

1.21 

中位绝对离差 

0.5 

0.61 

0. 66 

双权中位方差 

0.5 

0. 89 

1 . 06 


表格的上半部分给出的是各种位置测度的结果。和 BDP = 0相一致，均值 
因为特异值的拉动而被严重扭曲（由0变为 2. 85)。相反，截尾均值——按照常 
规，从尾部剪除了 20%的观察值，把特异值删除掉了——表现得非常好，它在好 
数据中和在受污染的数据中的值几乎完全一样（一0_ 09比一 0. 04)。中位数及 
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M 估计(用的是双平方权重）的 BDP 都等于 0. 5,二者看起来也没有受特异 
值影响。 

再来看尺度测度，可以看到在运算与均值有关的——也即标准差、相对均 
值的平均离差、相对中位数的平均离差——都被特异值严重扭曲。当然，这毫 
不奇怪，因为它们的 SDP 都等于0。标准差所受的影响最大，取值是不存在特 
异值时的13倍。相反，特异值对两个基于中位数的测量，四分位差 （BDP = 
0 . 25) 和中位绝对离差 ( BDP = 0.5) 的影响很小。与位置的 M 估计相似，特异 
值并未影响双权中位方差的表现，后者的 BDP 等于 0. 5。 


例 2. 2 :路国视野下公众对报爾不平等的态度 


下面我来看一个使用实际社会科学数据的例子。表 2. 3 中的数据来自 
Keakliem, Anderson 和 Heath(2005) 对收人不平等与公众对报酬不平等的态 
度的关系的跨国研究。该数据集包括 20 世纪 90 年代测量的 48 个国家的信息。 
变量包括： 


(1) Sec pay 0 来自世界价值观调查 （Inglehart et al _ ， 2000) 的一道题 
目的平均得分，这道题目询问了受访者对于报酬 （ secpay) 不平等的态度。 
题目是这样表 述的： “假设有两个秘书，她们年龄一样，实际上做的工作也 
一样。其中一个发现另一个挣的钱比自己多得多。只是报酬较高的那个 
做事更快，在工作上更有效率、更可靠。在您看来，这个秘书的报酬比另一 
个高是否公平？”受访者有两种回应选 择:“ 公平”(编码为 0), 或者“不公平” 
(编码为1)。因此，较高的平均分反映公众更喜欢平等（也就是说，这个国 
家的多数受访者认为两个秘书的工资不同是不公平的）。这些国家的平均 
得分从 0. 054到 0. 622,均值为 0. 2。 

(2) GinL 基尼系数，理论上的取值范围为 0( 完全的收入平等，收入在 
所有国民之间平均分配)到 K 完全的不平等，一个人占有所有收入）。也就 
是说，取值越高表明收入越不平等。 

(3) Per Capita GDP / 1000。 人均国民生产总值（千美元）。 
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(4) DemocmoN 民主。虚拟变量，“传统的民主国家（地区）”（也就是 
在收集数据时已经历过至少10年民主制度的国家)被编码为1，“新的民主 
囯家(地区）”被编码为0。 


用以建构这些测量指标的源数据的具体信息，可以参看 Weakliem et al . , 
(2005)。 

表 2. 3 48个国家 { 地区)的公众态度及经济和政治变量 


国家 ( 地区） 

Secpay 

Gini 

Per Capita GDP /1000 

Democracy 

亚美尼亚 

0. 061 

44.4 

2072 

0 

澳大利亚 

0. 179 

31.7 

22451 

1 

奥地利 

0.112 

23. 1 

23166 

1 

阿塞拜疆 

0. 070 

36.0 

2175 

0 

孟加拉国 

0. 057 

28.3 

1361 

0 

白俄罗斯 

0. 075 

28.8 

6319 

0 

比利时 

0.302 

27.2 

23223 

1 

巴西 

0. 232 

60. 1 

6625 

0 

英国 

0.211 

34.6 

20336 

1 

保加利亚 

0. 164 

30. 8 

4809 

0 

加拿大 

0. 176 

28.3 

23582 

1 

智利 

0. 361 

56.5 

8787 

0 

中国 

0. 131 

41.5 

3105 

0 

克罗地亚 

0. 092 

29.0 

6749 

0 

捷克共和国 

0, 557 

26.6 

12362 

0 

丹麦 

0. 248 

21. 7 

24217 

1 

多米尼加共和国 

0.089 

50.5 

4598 

1 

爱沙尼亚 

0. 054 

35.4 

7682 

0 

芬兰 

0. 354 

22.6 

20847 

1 

法国 

0. 231 

32.7 

21175 

1 

格鲁吉亚 

0. 086 

37.1 

3353 

0 

匈牙利 

0. 115 

28.9 

10232 

0 

印度 

0. 226 

29.7 

2077 

1 

爱尔兰 

0. 289 

35.9 

21482 

1 

意大利 

0. 226 

34.6 

20585 

1 

日本 

0. 284 

24*9 

23257 

1 

拉脱维亚 

0. 070 

28.5 

5728 

0 

立陶宛 

0. 096 

33.6 

6436 

0 

墨西哥 

0. 211 

53.7 

7704 

0 

摩尔多瓦 

0. 127 

34.4 

1947 

0 
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(续表) 


国家(地区） 

Secpay 

Gini 

Per Capita GDP /1000 

Democracy 

荷兰 

0. 328 

31. 5 

22176 

1 

挪威 

0. 441 

24.2 

26342 

1 

秘鲁 

0. 175 

46.2 

4282 

1 

葡萄牙 

0. 265 

35.6 

14701 

1 

罗马尼亚 

0. 133 

28.2 

5648 

0 

俄罗斯 

0.076 

48.0 

6460 

0 

斯洛伐克 

0. 622 

19.5 

9699 

0 

斯洛文尼亚 

0. 108 

29.2 

14293 

0 

西班牙 

0. 286 

32.5 

16212 

1 

瑞典 

0.401 

25.0 

20659 

1 

瑞士 

0. 149 

36. 1 

25512 

1 

中国台湾地区 

0.075 

27.7 

12090 

0 

土耳其 

0. 207 

41. 5 

6422 

0 

乌克兰 

0. 085 

47.3 

3194 

0 

乌拉圭 

0. 273 

42.3 

8623 

0 

美国 

0. 148 

36.9 

29605 

1 

委内瑞拉 

0. 208 

46.8 

5808 

1 

联邦德国 8 

0. 149 

30.0 

22169 

1 


注因为调査仅对联邦德国的受访者进行了调査，因此数据集使用了“联邦德国”这 
一概念。 


令人感兴趣的是那些在调查时民主化不足10年的国家(或地区 ） U = 26) 
对报酬不平等的公众态度(下面简称为公众态度）的分布情况。由于公众态度 
变量将被作为后面回归分析的因变量，因此首先对它的分布进行探索是非常重 
要的，检查它是否具有一些可能带来问题的特征——如偏态或存在特异值。我 
们先来检查图 2. 2,它呈现的是公众态度变量的分布的核密度估计 (kernel den ¬ 
sity estimation ， 也就是经过修勻的直方图）。除了在右端尽头有一个小鼓包外， 
分布的其他部分还是相当对称的。进一步的分析发现，两个国家捷克共和 
国和斯洛伐克——的取值异常高。从表 2. 3中可以看到，这两个国家的取值分 
别为 0. 557和 0. 622,而其他国家的取值没有超过 0. 4的。它们的独特性可能 
与其共同的文化和历史遗产有很大关系。 
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公众对收入不平等的意见 


图 2. 2 26个新建民主国家(地区)的公众对报酬不平等的态度的分布情况 

现在我们来看表 2. 4,它探索了位置和尺度的各种测量在纳入和删除捷克 
共和国及斯洛伐克时的不同表现。首先来看均值，可以看到当特异值删除时它 
显著地变小了(从 0. 167变为 0. 131)。类似的，当特异值被移除时基于均值的 

表 2. 4新建民主国家(地区)的公众态度变最的位置及尺度测度 
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尺度测度的缩小也很大(保留特异值时的标准差是删除特异值时的 1. 8倍)。相 
反，中位数及 M 估计的稳定性非常明显，它们的结果在特异值删除前后看起来 
几乎没有发生变化。类似的，两个数据集在中位绝对离差及 M 估计(双权中位 
离差)——两个具有高崩溃点的尺度测度——之间的差异要小得多。 

在结束本章之时，有必要提醒的 是:应 该对就回归分析中的变量进行的单 
变量分布检查保持警惕。 OLS 回归估计的是在给定 x 下^的条件均值。因此， 
y 的特异值并不见得就是回归的特异值。反过来说，回归中的权势案例并不见 
得一定是^意义上的极端值。当然，这并不意味着我们应该忽视单变量分布情 
况。不对单变量的分布进行探索，可能会妨碍研究者发现数据的重要特征。但 
最好不要在变量之间的关系得到探索之前对异常观察案例进行处理。带着这 
样的想法，我们下面将转向线性回归 OLS 估计，具体讨论异常案例将如何影响 
它的估计结果，而这些案例又如何被甄别出来。在下文中，我们还会在稳健回 
归方法的背景下回到对尺度及位置测度的讨论。 



第 3 章 I 稳健性、抗扰性与最小二乘回归 


一般最小二乘回归 

如果用；表示个体观察案例， j 表示变量，那么线性回归方程可以被 写成： 

k 

yi = 2 Xi 3^3 +匕 [ 3 . 1 ] 

>=1 

其中 > 是因变量或者说反应变量， A 是用来预测3^的自变量，译是回归系数，& 
代表与各个: r 保持独立的随机项(也即误差项)。 OLS 解将残差平方和最小化， 
其中残差是误差项的估计值。 

n k n 

min 2 (yi — 2 工也 Y = rmnj^e^ [3. 2] 

，- =i >=i i—i 

对方程 3. 2进行微分计算，得 到： 

n _ n 

S (: Vi — = S (6)*^ [3. 3] 

i=i t=i 

所谓残差，期望值为0,定义很简单， 如下： 

= yi~9i [3.4] 

其中1为模型的预测值。 

采用矩阵代数形式的话，线性回归模型 就是： 

y = X/3 + e [3. 5] 

其中：^是反应变量的一个观察矢量，： c 为包括所有案例每个解释变量取值 

(nXl) (riXJfe+1) 

的模型矩阵， P 为未知系数向量， e 为随机误差向量，即观察值^与其期望 

(*+lXn) nXl 
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值 EOO 之差。 

系数的最小二乘 解为： 

爸= ( X T X )- 1 X T y [3. 6] 

反应变量的拟合值或者说预测值，可由下面的式子求出： 

9 =X iX T X)~ l X T y = Hy [3.7] 

其中 H (“帽子矩阵”)是一个 nXn 的将 3； 映射到预测值$上的对称矩阵。 H 的 
对角线元素，也被称为预测值仏 (hat value 仏），给出了每个观察案例的杠杆效 

应 ( leverage ) 。如果一个案例有异常的工值-也就是说它的取值远远高于或 

低于工的平均值，那它对回归平面的杠杆效应就高。后面我们将会看到，残差 
及帽子值提供了每个案例对回归系数的影响大小的重要信息。 

线性模型的经典统计推论基于如下几个关于误差项的 假定： 

(1) 因变量7与解释变量之间的关系为线性关系。也就是说，在给定 
■ z 值的情况下， e 的期望值为0, E ( e; ) = 0。 

(2) 在所有 工值下 ，误差项的方差恒定， | ^)=¥。通常又被叫 
做同方差性 ( homoscedasticity ) 假定。 

(3) 误差项 e ; 相互独立 ， cov ( e t .， = 0,其中 i ^ j 0 

根据 高斯 - 马科夫定理 ( Gauss-Markov theorem ) ，如果满足上述条件，那么 
OLS 估计是总体回归系数的最佳线性无偏估计 (best linear unbiased estima ¬ 
tors , BLUE ) (Draper and Smith 1998 : 136) 0 事实上，不管误差项的分布特征如 
何，沒都提供了方差最小的无偏估计。如果我们加上误差项服从正态分布的假 
定，也就是说6〜 N (0, a 〗）， 那么0能够提供 )3 的最大似然估计，且其概率分布 
很容易推导出来。更具体地讲，如果误差项服从正态分布，那么系数也将服从 
正态分布，因为，它们是误差项的线性函数。不过，根据中心极限定理，对于 
OLS 估计的标准误而言，正态性只有在 n 很小时才很重要。 

回归系数的方差协方差矩阵是这样定 义的： 

vc^)= cx T x)-^f 


[3. 8] 



现代稳健回归方法 


其中，误差项的方差 d 是通过残差方差 S 〗 来估计的。而系数的标准误是由等 
式 3. 8的对角线元素提供的。大的残差——能够反映特异值或重尾——会扩大 
S ： 估计，进而扩大估计值的标准误。特异值还能带来不恒定的误差方差，从而 
使 OLS 估计失去效率，因为它们给所有案例同样的权重，包括特异值，尽管后者 
含有较少的回归信息。正如我们后面即将看到的，模型矩阵 X 中的异常案例还 
对 OLS 估计的标准误有着重要的影响，效果是好是坏，取决于异常性的不同类 
型。（见 Cook and Weisberg ， 1999:161)。 

异常案例对 OLS 估计及标准误的影响 (Implications) 

为了更好地理解异常案例是如何对回归估计产生影响的，首先来定义四个 
概念:单变量特异值 （univariate outlier ) 、回归特异值 （regression outlier ) 、杠杆 
效应 ( leverage ) 以及权势或影响 （ influence ) (Cook and Weisberg ，1982; 又见 
Rousseeuw and van Zomeran , 1990; Fox ， 1991， 1997)。 所谓单变量特异值， 
是指远离某一变量分布中其他案例的观察值。尽管在进行回归分析之前的初 
步分析中对此类案例进行探测是审慎的做法，不过，它们并不一定会带来问题。 
换句话说 ，一 个在: V 值或者 x 值上无条件异常 （unconditionally unusual ) 的观察 
案例，并不必然是回归分析中的特异值。 

回归特异值，有时又叫垂直特异值 （vertical outlier ) (Rousseeuw and van 
Zomeren , 1990) ，处于数据主体的一般模式之外。更具体地讲，它是那种在 ： r 
取值相同的情 况下， 3^取值非常不同的案例。回归特异值的典型特征就是残差 
很大。不过，残差大并不必然意味着该观察值影响了回归斜率的估计。同样， 
残差小并不一定意味着该观察案例服从数据主体部分的模式，至少对于来自 
OLS 回归的残差是这样。当一个特异值的影响力(或权势)很大时，它可能将回 
归平面整个拉向自己，从而使得对应的残差很小。 

一个案例如果 I 值异常，那它对回归平面就有杠杆效应。更详细地说，离 : T 
的平均值越远的观察案例(不管是在正方向，还是负方向），杠杆效应越大。不 
过，杠杆效应大不一定同时权势大。一个杠杆效应很大的观察案例可能恰好与 



寓级目归分析 


数据主体的模式一致。在这种情况下，该案例一点也不成为问题。后面很快就 
会有更具体的讨论。 

如果将一个案例从回归中移除后，回归估计发生很大的变化，那么该案例 
就是有权势的。权势的大小取决于杠杆效应与3/值的异常性的组合。也就是 
说，如果一个案例不仅有很高的杠杆效应，而且其 J 值在给定的 x 值下又很不 
正常，那它就能严重影响回归平面。在这种情况下，当回归平面试图把握这一 
观测案例时，截距和斜率都会受到影响。由于 OLS 估计建基于因变量的条件均 
值，会遇到均值本身会遇到的相同问题。仅仅一个案例就可以对系数估计产生 
影响。换句话说 , OLS 估计的崩溃点 BDPCT ， 2) = 1>兰0(当71增大时，1々 
趋近于0 )，而它的影响函数与残差的大小成比例。哪怕只有一个问题案例存 
在， OLS 给出的估计也会被扭曲。 

不同类型的异常案例还会对 OLS 估计的标准误产生影响。以简单回归模 
型为例，回归斜率的标准误建立在残差标准差&和 x 围绕其自身均值的变异量 
基 础上： 


八 /\ 

SE(^) = 


(工, — 亍) 2 


[3- 9] 


与重尾分布尾部的案例——包括特异值——相关的大残差会扩大&的取值，从 
而导致标准误比残差服从正态分布时大。具体地讲，杠杆效应小（即: r 值并不 
异常)的垂直特异值（即远离数据主体模式的观察案例）对上式的分母没有影 
响，但会扩大分子，进而使标准误变大。相反，带有杠杆效应的观察案例（即 x 
取值在正方向上或负方向上远离其均值)将使分母变大，进而减小标准误。简 
单地讲，离其他数据较远但服从一般模式的观察案例能够提高 OLS 估计的精确 
性。只有在给定 工值时 ^值异常的情况下，观察案例才会损害精确性。在这种 
情况下，一些稳健回归估计的标准误会更小。 

图 3. 1展示了不同类型的偏差值对简单回归直线的影响。除了带标签的观 
察案例外，三个图中的数据完全一样。它们是人为设计出来的，因此当带标签 
的案例被排除时， A 和％ 之间有着很强的线性关系(见实线）。虚线表示的是受 
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污染数据(即带标签的数据纳入其中时)的回归。 

A . 垂直特异值 B . “好”的杠杆点 C . “坏”的杠杆点 




图 3.1 不同类型的偏差值及其对 OLS 估计的影响 

注: 虚线代表包括特异案例时的回归线;实线为不含特异案例的回归线。 

首先来看图 A ， 观察案例 A 的 x 值并不异常(事实上,它等于 i ) ,但^值却 
高度异常。也就是说，这个案例是一个回归特异值，但没有很强的杠杆效应。 
因此，它对斜率的估计没有影响。不过，它确实对估计的精度产生了影响。由 
于残差如此之大，它会使标准误扩大。而且这种观察值会把截距拉向它，尽管 
只有当偏差非常极端时才会有严重的影响(在这里，它的影响很小）。在这种情 
况下，根据残差大小降低相应观察案例权重的稳健回归(如 M 估计)能够提供同 
样无偏但更加精确的估计。 

在图 B 中，观察案例 B 不论 是在工 值上还是^值上都是单变量特异值，但 
它恰好落在回归直线上。也就是说， B 的杠杆效应很大，但并非回归特异值。尽 
管它对斜率没有影响，但它降低了估计的标准误，因为它拓宽了: r 的范围。因 
此，从 OLS 估计来讲，这个案例根本就没有问题。事实上，此时使用 OLS 之外 
的任何方法都是不明智的。 

最后，图 C 中的案例 C ， 从 x 值上讲异常，在: r 值给定的情况下^也不正 
常。换句话说， C 的杠杆效应大，而且是个回归特异值，从而导致回归直线被拉 
向它。由于特异值影响而变大的^的变异性使得回归系数的精确性变小。如 
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何处理这种性质的特异值，需要良好的判断力，而且通常要进一步研究。在理 
想状态下，这种异常性是由于错误编码造成的，因此纠正编码即可。或者，如果 
有充足的理由，应该移除该案例，并将其作为特殊案例单独进行讨论。还有一 
种选择是使用某种形式的稳健回归——它们给出的结果通常与直接删除这些 
案例得到的结果基本相同。在目前这种特定的情况下，最好选择一种同时考虑 
了杠杆效应和残差的方法(如 GM 估计，将在第4章中讨论)。在后面我们即将 
看到，并非所有的稳健回归技术都有这种属性。 

总的来讲，杠杆效应小的回归特异值尽管能影响截距的估计，但对回归斜 
率的影响很小。更重要的是，它会对模型的拟合以及估计的标准误造成负面影 
响，因为它的残差很大。一个杠杆效应很大但3^值差异不大的案例——也就是 
说该案例与数据的主体模式保持一致——不会影响斜率估计，事实上，它的出 
现会增进模型的拟合度，让估计更加精确。只有当偏差与杠杆效应结合在一起 
时，斜率系数才会受到影响。 

所有这些都表明，如果没有发现并处理好这些权势案例，将导致错误的结 
论。这些结论将建立在一个很差劲的模型之上，不管用来评价这个模型的各种 
标准测量——如记和系数标准误——看起来是否很好。也就是说，模型拟合 
度的标准测度量并非总能指示偏差案例对于回归系数的影响。这意味着使用 
图形法来评估案例的影响或权势非常重要。我们必须认真检查数据中的模式， 
从而对模型得出的估计抱有信心。当然，这是统计分析的一般原则,而非仅仅 
适用于回归分析。 

例 3. 1:26 个新建的民主国家 ( 地区 ) 的收入不平等与公众对报爾 I 不平等 
的态度 

没有其他办法比通过一个实际例子更能揭示 OLS 的局限性。继续使用 
上一章介绍的关于公众态度的数据，目标是用基尼系数来对公众态度进行预 
测。更准确地说，我们想研究一个国家(地区）的收人不平等水平是否会影响 
其公众对报酬不平等的态度。当下的例子只集中关注这26个新建民主国家 
及地区。 
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_ 基尼系数 _ 

— OLS —所有案例 ---OLS —排除了异常案例…••…稳健回归 

图 3 . 2 26个新建民主国家{地区）的收入不平等与公众对于报酬不平等的态度 

通过作图法对数据进行检查的重要性在这里非常明显，很容易就能 看到: 
OLS 回归直线被拉向特异值。两个异常案例都具有很高的杠杆效应(也就是 
说,它们的1值，基尼系数，距离平均值 i 很远），并且都是回归特异值 （ E 卩 :在给 
定的 x 值下它们都具有差异性很大的^值，公众态度）。也就是说，这两个案例 
并不符合数据主体的一般模式。我们还能看到，稳健回归比 OLS 回归更能反映 
数据中多数案例的模式，它对数据的拟合结果与剔除了特异值之后的 OLS 回归 
有一些类似。 


图 3. 2通过散点图对两个变量之间的关系进行了展示。图中还包括拟合 
这一数据的各种回归直线。其中，实线是利用全部26个案例信息来预测公众 
态度的 OLS 回归直线，虚线是排除了两个极端案例（捷克和斯洛伐克）后的 
0LS 回归; 点线来自于使用 M 估计的稳健回归，这种回归给予在最初 0LS 拟 
合中残差较大的观察案例更小的权重。（关于这种方法，更详细的内容将在 
第4章给出。） 
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上述回归的数字输出结果呈现在表 3.1 中。如果没对异常案例进行探测就 
报告最终的回归结果，我们很可能会选择 OLS 估计，并得出结论，认为收入不平 
等与公众对于报酬不平等的态度无关。一旦如此，我们就让两个案例——捷克 
和斯洛伐克——影响了整个结论。移除这两个案例之后的 OLS 回归表明，两个 
变量之间存在着相当强的关系。不仅基尼系数变成正的，而且在约定水平 ( p < 
0. 001) 上统计显著，回归模型对于数据的拟合也显著提高。在删除特异值之 
前，模型的确定系数接近于0，删除后，确定系数增加到可观的 0. 39。同样的，回 
归直线的标准误在特异值被删除后得到了显著的改善，从 0. 149下降到少于一 
半，约为 0. 063。和图 3. 2反映的一样，类似于删除了特异值的 OLS 回归，稳健 
回归对于收入不平等的估计也是正的，尽管要小一点。影响在统计上仍然显著 
(p = 0. 025)，不过因为 n 很小，对表中提供的渐近标准误，阐释起来应该小心 
(在第5章将进一步讨论)。 


表 3.1 以收入不平等来预测公众态度(新的民主国家和地区} 



OLS (所有案例） 

OLS 

(排除捷克和斯洛伐克） 

稳健回归 ( M 估计） 


P 

SECjS ) 

八 

SEC ^ ) 


SE (在） 

截距 

0.195 

0. Ill 

— 0. 059 

0. 053 

0.016 

0. 056 

基尼系数 

— 0, 0008 

0_ 0028 

0. 0050 

0. 0013 

0. 0031 

0. 0015 

s . 

0.1485 

0. 0627 



R 2 

0. 0029 

0. 3887 



n 

26 

24 


26 


探测 OLS 回归中的问題案 ft 


上一章已经表明了在简单回归中探测和处理异常案例的重要性。现在我 
们来看一些用于探测多元回归分析特异值的传统方法。对于这些方法，绝大部 
分都会提供一些基本的描述。关于这里讨论的方法及其他方法的更多具体内 
容可以看库克和威斯伯格 （Cook and Weisberg , 1982) ，鲁索和勒罗伊 （ Rous - 
seeuw and Lerroy ，1987) ，查特吉和哈迪 （Chatterjee and Hadi ，1988)， 还有福 
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克斯等的作品 ( Fox ， 1991)。 

我首先对上述跨国数据拟合了两个 OLS 回归模型，两个都是用基尼系数和 
人均 GDP 来解释公众态度。模型1包括所有26个新的民主国家(地区）。如表 
3.2 所示，基尼系数对于公众态度的影响的统计检验不显著 （p = 0. 40) ，但人均 
GDP 的影响统计显著幼= 0 . 018)。此前的分析表明，两个案例捷克和斯 
洛伐克——在基尼系数取值很低的情况下有着异常高的公众态度得分。排除 
了这两个案例的模型2得出了不同的实质性结论。人均 GDP 不再显著 （/> = 
0.051)，而且大小只有包含两个特异值时的1/3。相反，基尼系数的影响增长了 
7倍,而且变得统计显著了 (p = 0 . 002)。同样重要的是，包含两个异常案例的回 
归的标准误是没有包含时的两倍以上，而确定系数 I ? 2 不到后者的一半。因此， 
很清楚的是，这两个案例对估计造成了严重的问题。当然，在进行模型诊断之 
前，我们事先通常并不知道异常案例存在。下面我们对使用了全部26个观察案 
例(包括两个特异值)的回归进行诊断。 


表 3. 2用收入不平等预测公众态度的不同 OLS 回归 
来自新的民主国家(地区)的基尼系数和人均 GDP 的解释 



OLS (所有案例） 

OLS (排除捷克和斯洛 伐克〉 


八 

SEC 》） 

八 

SE (在 ） 

截距 

0. 028 

0. 128 

-0. 107 

0, 058 

基尼系数 

0. 00074 

0. 0028 

0. 00527 

0. 0013 

人均 GDP (千美元） 

0. 0175 

0. 0079 

0_ 0063 

0. 0037 

s e 

0. 138 

0. 0602 

R 2 

0. 175 

0_ 4622 

n 

26 


24 



探测杠杆效应子值 (Hat value ) 


我们先来探测杠杆效应高（即: T 取值比较异常）的案例。最常用的衡量杠 
杆效应的测量是前面已经讨论过的(见方程 3. 7) 帽子值&，它是将特定％转化 
为对应预测值 5) :的权重。如果心很大，那么第 i 个观察案例对第 j 个预测值有 
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很大的影响: 


5>i- = hijyi ^rh^yz H - +h^y„ = 2 心 :V, [3. 10] 

；=i 

单个帽子值&衡量的是特定观察案例％对所有预测值的潜在杠杆效应。帽子 
值的范围处于 l / n 和1之间，平均值为6 = a + l ) n 0 值得注意的是，在最小二 
乘回归中，3；的取值与帽子值的计算无关。 [9] 帽子值只考虑了一个特定 的心值 
离它的均值 f 有多远。如在简单回归中， 


(jQi —xY 

ix j -无 )2 


[3.11] 


帽子值在多元回归中的功能相同， 不过仏 现在测量的不是相对于单个 : T 
的均值的距离，而是相对于多个工的中心的距离——即所有 X 的均值相交的 
地方。换句话说，多元回归中的帽子值考虑了各个 X 之间的相关及变化结构 
Ccorrelation and variational structure ) (见 Cook and Weisberg , 1999 : 161 — 
163) 。 帽子值只能指示杠杆效应——它们不能告诉我们在给定的 x 取值下对 
应的: V 值是否异常。尽管杠杆效应高的案例有时会有很大的残差，但并不必 
然如此。事实上，正因为它们将回归直线拉向自己，杠杆效应高的点残差可 
能很小， 


V ( e , ) — trf ( 1 — hi ) 

图 3. 3标示出了模型2中与案例号对应的帽子值(即所谓的带标号的帽子 
值图）。尽管这里并没有针对杠杆效应的正式检验，经验之一是，超过帽子值平 
均值两倍的帽子值应该被关注。 [ 1 G ] 图中的虚线即代表对应取值。有三个案例 
与其他数据差别 较大： 巴西、智利和斯洛文尼亚。尽管这些案例的杠杆效应很 
高，但没有进一步的分析，还不能说它们偏离了数据主体的模式。回想一下，如 
果它们与数据中其他案例一致的话，这些案例就是“好的”杠杆案例，因为它们 
帮助降低了估计的标准误。因此，在进一步探测回归特异值时，我们会留意这 
些案例，但不用对它们有所担心。 



探测回归特异 值：学 生化残差及邦 典魯 尼校正 （Studentized Residuals 
and Bonferroni Adjustment) 

乍一想，探测回归特异值最简单的办法是计算标准化的残差 〆 ，然后将 
丨 〆I > 2的案例(也就说，大于平均残差两个标准差的残差)作为显著的特异值。 
但是，标准化残差值在进行统计推论时存在麻烦，因为等式的分子和分母相互 
并不独立，因而并不服从 z 分布。如下所示，我们关注的残差^不仅出现在分子 
里，还出现在分母中的残差标准差〜的计 算里： 


er 


ei 


s e \/l — hj 


[3.12] 


解决办法是计算学生化残差 (studentized residuals )， d ， 它将我们关注的案例从 
残差标准差的计算中排 除掉： 


A 


ei 


\/ l ~ hi 


[3.13] 
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图 3.3 模型1的帽子值 
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它满足自由度为 n 一 k 一 2的£分布。 
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mse 分析 


将学生化残差与自由度相同的理论 （ 分布量进行比较的分位对比图 （ quan ¬ 
tile comparison plot ) 对探测特异值非常有用，尤其是在拟合回归模型之前，并没 
有任何特定的观察案例被怀疑为特异值的情况下，事实上，通常都是这种情况。 
图 3. 4是来自模型1的残差的分位对比图。围绕这些观察值的95%的置信带 
(confidence envelop ) 是使用自助法得到的，这一主题将在第5章得到讨论。有 
两个案例偏离了置信带 :捷克 和斯洛伐克。回想一下可知，这两个案例在前面 
的诊断中并没有被认为带有极端的帽子值。 



分位数 

图 3. 4来自模型1的学生化残差分位对比图 


我们可以正式地检验一个具体的案例是否特异值，尽管标准 A 值不能信 
任。如果我们有意地检验最极端的残差——事实上，经常这样做——而不是随 
机选择一个观察案例，检验将偏向于统计显著，因为即使残差满足正态分布，仅 
仅因为随机的原因就有5%的学生化残差会在统计检验上显著 （ a = 0. 05)。对 
最大特异值的双边£检验的夕值进行 Bonferroni 校正能够补救这一问题。 Bon ~ 
ferroni />值= w〆 ， 其中 />' 是没有被调整过的自由度为以-2的 f 检验的/>值 
( Fox ， 1997:274)。斯洛伐克——残差最大的观察案例——的 z 统计量等于 
4. 31，对应自由度为22, 值= 0. 00027。经过 Bonferroni 校正，户值为26 X 
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0. 00027 = 0. 0072, 表明斯洛伐克是一个显著的特异值。尽管这里我们发现了 
偏差很大的案例，但必须记住，异常案例并不总带有很大的残差。 

探测权势值 : DFBETAs 、 Cook’s D 和偏回归图 (partial regression plot) 

评估权势值最直接的办法是看特异值移除后回归系数发生了多大变化。 
我们可以使用被贝尔西、库恩和韦尔斯 (Belsley，Kuhn and Welsch, 1980) 称作 
DFBETAs (或 A ) 的概念，它们的定义非常 简单： 

Dij = ^ j ，对于 i = 1，…， n ; j = 0, 1 , …， k 

其中 t 是使用所有数据时的回归系数， hi 是第〗个案例被移除时的系数。 
每个案例对于每个系数都有一个 DFBETA& 。 对于 DFBETA, 没有正式的显著 

性检验，常用的拇指规则 (rule of thumb) 界线是 | 巧| >2/ A 。 将 DFBETA. 值 
对案例编号 作图叫 艮有用，然后从中寻找取值相对较大的。 

回到模型1，人均 GDP 及基尼系数两个变量对应的 DFBETA, 值标记图 

(index plot ) 呈现在图 3. 5中。点线代表拇指规则界线，1仏|>2/々。我们已 
经发现捷克和斯洛伐克是回归特异值。现在我们看到它们对回归估计还有异 
常高的影响。这种影响同时涉及两个解释变量。斯洛伐克明显将人均 GDP 的 
系数往正方向拉，将基尼系数的影响往负方向拉。尽管与斯洛伐克相比，捷克 
共和国对人均 GDP 的影响较大而对基尼系数的影响较弱，但两者的一般模式 
是相同的。另外三个潜在的问题案例也被发 现:智 利将基尼系数往正方 向拉; 
中国台湾地区和斯洛文尼亚将人均 GDP 的系数往负方向拉。 

DFBETA 对于理解一个案例对哪个自变量存在权势非常有用，但是由于需 
要在每个变量上给每个案例一个单独的测量，当维度增多时（即自变量增加 
时），这种测量显得非常繁杂。 Cook ’ s 距离，也被称作 Cook’s D ， 通过提供一个 
单一指标，测量每个观察案例对于回归平面的总体影响，解决了这一麻烦 
( Cook ， 1977)。与 Cook’D 相关的其他方法还有 DFFIT(Belsley et aL , 1980)、 


①即分别以案例编码和 DFBETA ^ 作为横、纵坐标做散点图。——译者注 
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图 3. 5模型1中人均 GDP 及基尼系数的回归系数的 DFBETA 标记图 


艾金森的调整 Cook ’ s 统计量 ( Atkinson ，1985) 0 这些方法一般会给出类似的 
结果(见 Draper and Smith , 1998: 214) ，因此我们主要关注最常用的 Cook’s D。 
某个观察案例的 Cook ; S D 为： 


D t 


k+l 



[3.14] 


其中々是自变量的个数。等式的前半部分包括诙案例的标准化残差，从而测 
量了差异度 (discrepancy) 。 等式的后半部分包括帽子值，&，因而测量了杠杆效 
应。尽管 Cook’s D 没有正式的统计显著性检验，但有大致的标准分界线。 
Cook 和 Wdsb e rg(l 9 9 9 : 3 58) 建议要认真探测 D, > 0. 5 的观察案例。基于 
Chatterjee 和 Hadi(198 8 ) 提供的与此相关的 DFFIT 测量的分界线， Fox(199/ : 

281 ) 建议了一个取决于样本规模 n 和自变量 数目々 的分界线 Dg > —^。 

n~k~ 1 

这些分界线都是有用的，但它们并非总能成功地区分出问题案例，因此，没有什 
么可以替代对于相对差异度的认真检查。 

Cook’s D 标记图能够帮助我们确定观察案例对回归估计的总体影响的相 
对大小 (Cook and Weisberg ，1999：358) c 另外一种选择是绘制一个由福克斯 
( Fox , 1"1:3 7 — 38) 创制的“权势图… 1 」。权势值图的一个用处在于，它能够 
显示出决定权势大小的差异度及杠杆效应的相对权重。权势图是通过将学生 
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化残差 < 作为纵轴，帽子值心作为横轴作图得到的。每一个案例由一个空心 
圆圈 代表， 圆圈的 面积与 Cook’s D 成比例。也就是说，圈越大，对应案例对回归 
平面的影响越大。 

图 3. 6给出了模型1的 Cook’s D 标记图和权势图。两个图中的异常案例 
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图 3. 6对模型1中各案例的权势进行评估 
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都加了标签。斯洛伐克和捷克的高权势通过权势图中代表它们的较大 圆圈展 
现得非常清楚。而且我们可以非常清楚地看到，这两个案例的高权势，都是因 
为较大的差异度和杠杆效应相结合而导致的。我们还得注意，斯洛文尼亚对回 
归估计的影响同样比其他国家大得多。 

当权势案例相对较少时, Cook’s D 对它们的甄别非常成功，但它有可能不 
能发现联合性权势案例 (jointly influential observation) ， 尤其是当这样的案例 
为数不少时。在这种情况下，有可能这些案例中的任何一个本身并没有髙度异 
常的权势，因此也不会有很大的 Cook’s D 。 如果联合性权势案例数量很少的 
话， Cook’s D 仍然可以被用来甄别它们，方法是逐步删除这些权势案例并不断 
更新模型，且每次都检査一下 Cook’s D 。 但这种方法在需要试探的次数很多时 
变得不切实际。因此，偏回归图，又叫新增变量图 (added variable plots) ，要有用 
得多，至少在甄别对单个回归系数影响很大的观察案例上 (Cook and Weisberg, 
1999:360)[ 12 ]。 

偏回归图和将所有案例标绘在图上的简单散点图很相似。不同的是，在偏 
回归图中观察案例呈现出来的模式表示的是 J 和 I 之间的偏关系 (partial rela- 
tionship) ， 而不是边际关系 (marginal relationship )。 也就是说，偏回归图画的是 
控制其他自变量不变的情况下一个变量的效果。令3^表示除^外所有其他 
工对: V 的最小二乘回归的残差 ， M ^ + 以 1 、 +…+义 1 、十乂⑴。类似的， 
令表示来自々对所有其他工(而不是 30 的回归的残差” +4°^ 
+… + j ^ u 。这两个等式决定着残差： y ! D 和是: y 和 a 在 a ， …，々 
的线性效应被移除之后剩下的部分。如果用来评价杠杆效应，残差和^ (1) 
有3个极方便的属性 “1)# 对回归的斜率就是多元回归中的最小二乘斜 
率 1( 也就是说，与偏回归斜率相等)； （2)# 对回归的残差恰好等于最初 
多元回归的残差，乂 (1> = +M (3)^ (1) 的方差是控制所有其他 x 不变时 

的条件方差。正是因为这些属性，以3^对 A U) 作图就能同时反映案例对 
i 8 i 的单独权势和联合权势。 

模型1的偏回归图在图 3. 7中。可以看到，偏回归图更清楚地说明了捷克 
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图 3. 7模型1的偏回归图 

处理权势案 例的一 些策略 

一旦在 OLS 回归中发现问题案例，就有几种选择:（1)审查一下这种偏差是 
不是通过重新编码或移除这些案例就可以解决的模型失效 (model failure ) 的征 
兆; （2) 转换一个变量(或多个变量）以矫正这个问题，尤其是碰到偏态分 布时; 
(3) 如果存在很多联合性权势案例，我们可以通过在模型中增加新的因素—— 
要么是新变量，要么是已有自变量间的交互作用——来解决这些观察案例展现 
出来的异常模式;或者⑷使用一种更稳健、更能抵抗特异值干扰的方法。下面 
我们就将注意力转向各种稳健回归技术。 


- 0. 1 

-6-4-2 0 2 4 6 

GDP / 其他的 


°* 3 - o 捷克 

0.3 


和斯洛伐克的权势，反映出它们一起将基尼系数的斜率拉向负方向，同时将人 
均 GDP 的斜率拉向正方向。换句话说，如果组合在一块，这两个案例的影响比 
它们各自单独的 Cooki D 显示 的要大得多。 

基尼系数 人均 GDP 

斯洛伐克 

0.4 
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第 4 章 I 线性模型的稳健回归 


现在我们来探讨各种稳健回归技术——包括那些有时被称为耐抗回归的 
技术，我们使用的是一种进化论的讨论方式，将分别解释各种新方法是如何来 
应对已有方法的局限性的。几种类型的回归将被讨 论到: L 估计(基于序次统计 
量的线性组合）， R 估计(基于残差的秩序）， M 估计(通过考虑残差的大小由位 
置的 M 估计扩展而来） ， GM 估计(或者叫广义 M 估计，通过给予高权势点和大 
残差点较小的权重对 M 估计所做的扩展）， S 估计(这种估计将残差尺度的稳健 
M 估计最小化）， MM 估计(同时基于 M 估计和 S 估计，以同时获得高的崩溃点 
和高的渐近效率)。其中有些方法已经被认为过时了，但我们仍会提供一般的 
描述，因为稳健回归技术的最新发展建立在它们之上。本章结尾时将讨论，稳 
健回归何以能够成为甄别问题案例的诊断方法。 


L 估计量 (L-estimators) 


任何由顺序统计量的线性组合计算而来的统计量都可以被归类为 L 估计 
量。第一个 L 估计程序比 OLS 略微稳定一些，是最小绝对值 ( LAV ) 回归。最 
小绝对值回归又被称为 U 型回归，因为它将 U 标准 ( U - norm ， 即绝对离差 
之和)最小化，这种方法是最简单也是最早用来限制案例权势的稳健回归，比 
OLS 回归还要早产生50年 (Wilcox ， 2005:451)。最小二乘回归也满足 L 估计 
的这一定义，因此有时也被称为 L 2 型回归，表示 Lz 标准 （ U - norm ， 离差平方 
和)被最小化。其他知名度比较高的 L 估计还有最小二乘中位数估计和最小截 
尾二乘估计。 [14] 
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最小绝对值回归 (Least Absolute Values Regression) 


最小绝对值 (LAV) 回归对带异常 y 值的观察案例有很强的抗扰力。它是 
通过将残差绝对值之和最小化来求解的。 

min 2 1^-1 = min2 | M _ 2 Aft | [4_ 1] 

r=l i=l 

LAV 可以被看作是更一般的分位数回归的特例。在这种情况下，需要最小化的 
目标函数可以被 写成： 


其中： 

( a 0 i 如果 

p a {€i ) = < 

— 如果匕<0 

而《是需要估计的分位数。有关分位数回归的一般应用，可以看凯恩克和巴萨 
特等的作品 （Koenker and Bassett ， 1978； Koenker and d ' Orey , 1994； Koenk - 
er , 2005)。 而针对社会科学的应用，可以看郝玲馨与奈曼的合著 （Hao and 
Naiman , 2007)[ 15 ]。 

尽管 LAV 不像 OLS 那么容易受异常^值影响，但它无法处理杠杆效应 
(Mosteller and Tukey , 1977:366) ，因此其崩溃点 BDP = 0 o 另外 LAV 的估计 
效率相对较低。与平均值的情况一样，在 y 服从正态分布 y 〜 o 2 ) 的假定 
下， OLS 回归中 y 的抽样方差是 a 2 / W ; 但对于 LAV 回归来说，是前者的; r /2 = 
1. 57倍，等于 ot 2 /2 w (也就是说，只有 OLS 估计效率的64%)。 LAV 回归法不 
仅崩溃点低而且效率低，这使得它不如接下来要讨论的稳健回归方法有吸 
引力。 


[4.2] 


[4 3] 


最小二乘中位数回妇 (Least Median of Squares Regression) 


最小二乘中位数法 （ LMS ) 最先由鲁索 （Rousseeuw 1984 ) 提出[ 16 ]，它把 
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OLS 回归中的残差平方的总和替换为残差平方的中位数。估计结果是这样解 
出 来的： 


minM (y — Si ) 2 = minMC ^ ) [4* 4] 

其中 M 表示中位数。其想法是通过将总和替换为更稳健的中位数，使得最终的 
估计量能够更好地抵抗特异值。尽管这一目标达到了（它的崩溃点 BDP = 
0.5)，但 LMS 估计有非常重要的不足之处，以至于限制了它的广泛应用。它最 
好的相对效率也只有37%(参见 Rousseeuw and Croux ，199 3 ) ，另外，由于收敛 
速率 只有; T 1 "， 它没有一个定义清晰的影响函数 ( Rousseeuw ，1984) 0 尽管有 
这些不足，后面我们仍将看到， LMS 估计在效率高得多的 MM 估计的运算中扮 
演着非常重要的角色，它为后者提供了残差的初始估计。 


最小戴尾二乘回妇 (Least Trimmed Squares Regression) 


另一种由鲁索发展出来的方法是最小截尾二乘回归 ( LTS )。 LTS 回归由截 
尾均值扩展而来，通过最小化截尾残差平方和来求解。求解方式 如下： 

2 e u ) [4 - 5] 

i=l 

其中 g = [ n ( l - a ) + l ] 是估计量运算过程中包含的观察案例数， a 是截尾了的 
比例。使用(«/2) + 1，可以确保估计量的崩溃点 BDP = 0. 5 0 尽管具有极 
高的抗异常值干扰的能力，不过 LTS 回归的相对效率方面非常差，只有大概 
8%& S (^ Stromberg，Hossjer and Hawkins , 2000) 0 它的效率如此之低，甚 
至不适合作为单独的估计量。但它在其他估计量的计算中有着重要作用。例 
如，由寇克里和赫特曼斯伯格 (Coakley and Hettmansperger ，1993) 提出的 GM 
估计就是使用 LTS 来取得残差的初始估计的。 LTS 残差还能被有效地用于特 
异值诊断作图，后面将会讨论到。 


R 估计量 (R_Estimators) 


R 估计量最先由贾克尔 ( Jackel ，1972) 提出，它们与基于序次化残差线性组 
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合(即基于残差的秩)的离散程度度量紧密相关。令尺代表残差的秩〜，尺估 
计最小化的是秩化残差 (ranked residuals ) 某种得分 之和： 

tt 

min 2 ) a [4. 6] 

i-i 

其中 a „( i ) 是满足如下条件的单调得分 函数： 

^ a n ( i ) = 0 [4. 7] 

i*-i 

前人已经提出多种可能的得分函数。其中，最简单，可能也是用得最多的 
是威尔考克森得分 (Wilcoxon score ) ，它直接寻找观察案例相对于中位数 的秩： 


a „(0 = i ~ ( ”言巧 


[4.8] 


中位得分是威尔考克森得分简单调整后的结果: 


a n ii ) = sin 




[4. 9] 


范•德.瓦尔登得分 (Van der Waerden score ) 以正态概率密度函数的反函 
数少― 1 对秩进行了 修正： 


a n { i ) = ® _1 [4. 10] 

最后，有限正态得分 (Bounded Normal Scores ) 根据一个常数 c 对范•德 • 
瓦尔登得分进行了限定和修正。 

a n (0 = minjc , max 中 -1 ( 打上丄 ) ， -} [4.11] 

R 估计量相对于其他估计量(如 M 估计及其扩展而来的各种估计量）的一 
个优点，在于它们具有尺度同变性。不过，它们也有一些不足之处。问题一是， 
这些得分函数哪个最优并不清楚。另一个问题是，对于截距而言，它们的目标 
函数不具可变性。如果不需要截距的话，也就无所谓了——事实上就没有估计 
截距。即使有人需要截距，也可以在拟合了模型之后通过残差的中位数手工计 
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算得到，因此这一点不足是可以克服的。更严重的问题在于多数 R 估计量的崩 
溃点 BDP = 0。一个特例是纳兰霍和赫特曼斯伯格 （Naranjo and Hett - 
mensperger , 1994) 的有限影响 R 估计量，它在髙斯一马科夫假定满足的情况下 
效率也很高(90%—95%)。不过，即使对于这个估计量，它的崩溃点也从来没有 
达到超出 0. 20的水平。因此，我们先把 R 估计量放在一边，接下来讨论其他更 
稳健的估计量。（有关 R 估计更具体的内容，可以看休伯等的著作 [ Huber ， 
2004; Davis and Mckean ，1993; Mckean and Vidmar ，1994])。 

M 估计量 (M-Estimatore) 

回归的 M 估计首先由休伯 （ Huber ， 1964, 1973, 2004) 提出，是位置的 M 
估计的一种相对直接的扩展。它是首先对最小二乘估计量的效率与 LAV 估计 
量的耐抗性进行折中整合尝试的代表之一，后二者可以被看作是 M 估计的特 
例。简单地讲， M 估计量将残差的某种函数最小化。和位置的 M 估计一样，估 
计量的稳健性取决于权重函数的选择。 

如果线性、方差齐性及独立误差假定成立，那么^的最大似然估计结果就等 
于使用最小化平方和函数求得的 0 LS 估计： 

min 公(乂 ― = min 2 [4. 12] 

£-1 i=l 

与位置的 M 估计一脉相承，稳健回归 M 估计最小化的不是残差平方和，而 
是另外一个递增速率较低的残差函数之和： 

n n 

tnin ^ p(yi — ) = min [4. 13] 

i=l i-l 

这个函数的解不具备尺度同变性，因此残差必须经过标准化，而标准正是它们 
的尺度 L 的某种稳健估计，这一估计是同时完成的。和在位置的 M 估计中一 
样，中位绝对离差 ( MAD ) 经常被使用。计算方程 4. 13的导数，解出来之后即为 
得分 函数： 
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2] — )xik = e '> x l ^ 0 [4.14] 

i=\ i=1 

且少 = 〆 。这样，上式就变成了々+ 1 个方程形成的方程组，其中少被替换为适 
当的随着残差增长而降低的 权重： 

n 

y]vui iei/a € = 0 [4. 15] 

f — 1 

迭代再加权最小二乘法 (Iteratively Reweighted least squares) 

求解回归的 M 估计必须使用迭代程序。仅仅一步是没法求出结果的，因为 
残差在建立模型之前根本就不可能知道，而估计结果在不知道残差之前也求不 
出来。因此，迭代再加权最小二乘法 ( IRLS ) 被用来解决这一问题: 

(1) 设定迭代游标为1 = 0,此时对数据估计一个 OLS 线性回归，找到 
回归系数的初始估计身 ((3) 。 

(2) 从初始的 OLS 回归中算出残差#>，并用来计算初始权重。 

(3) 选择一个权数函数，并将之用于初始的 OLS 残差，产生出预备 
( preliminary ) 权数 ， ） 。 

(4) 第一次迭代 ，I ^ 1?用加权最小二乘法 （Weighted least squares , 
WLS ) 最小化并且得到 在⑴。 以矩阵的形式表示，如果 W 为代表 
个体权重的 w X w 对角矩阵，其 解为： 

卢⑴= ( X T WX ) - 1 X T Wy [4.16] 

(5) 程序将继续使用初始的 WLS 回归得到的残差计算新的权重, W 2) 。 

(6) 新权重 ttf 将用在下一次 WLS 迭代中，1 = 2,估计出 爸⑵。 

(7) 第 4—6 步将被不断重复，直到吾稳定在一次迭代结果上。 

更一般地讲， g 次迭代每一次的解都是彳 a) = cx 7 ^)- 1 X T W ^, 其中= 

( ttXn ) 

diag{uT } 。迭代将一直持续，直到身⑺一沒心 1 )兰0。通常来讲，当估计结果的变 
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化量不超过上一次迭代的 0. 01%时，解被认为得到收敛。在第6章稳健广义线性 
模型部分，我们将更详细地讨论迭代再加权最小二乘法 IRLSc 

根据 M 估计的定义，它对重尾误差分布和不定误差方差——因而也对^特 
异值——具有耐抗性，不过它们仍然潜在地假定模型矩阵 X 不存在测量误差。 
但是在高斯一马科夫假定下， M 估计的效率达到 OLS 估计的另外，虽 
然 M 估计在面对回归特异值(即在给定各个 x 值情况下异常的 > 值)时的稳健 
性及抗扰能力上比 OLS 回归有所改进，但和 LAV 估计量一样，它们不是完全 
不受异常案例的影响，因为它们没有考虑杠杆效应。回想一下可以知道，位置 
的 M 估计高度稳健 ，拥 有有界影响函数并且崩溃点取值 BDP = 0. 5。回归的 M 
估计分享了关于3；的那些属性，而没有继承关于: r 的那些属性，结果其崩溃点 
BDP = 0 o 也就是说，在某些情况下它们的表现并不比 OLS 好(参见 Rousseeuw 
and Leroy , 1987) 0 后面我们将会看到，因为它们在计算其他更稳健的估计量 
中的角色，这些估计量仍然非常重要。 

GM 估计量 （ GM-estimators) 


M 估计由于未能处理杠杆效应，因而不具备有界的影响函数 (HampeUt al . ， 
1986)。为了应对这一问题，有界影响广义 M 估计 (bounded influence Generalized 


M-estimator) 被提了出来。其目标是产生出能够同时考虑垂直特异值和杠杆效应 
的 权数。 其中特异值经由标准的 M 估计处理，而杠杆点则按照通常的方式根据各 
自的帽子值赋予较轻的权数。 GM 族估计量的一般形式是这样定义的： 

[ 4 - 17 ] 

其中平为得分函数(和在 M 估计中一样，通常被叫做 Huber 或双权函数)，权数 
%和％最开始取决于对数据拟合的初始 OLS 回归的模型矩阵 X ， 然后在迭代 
中得到更新。 

第一个 GM 估计由马娄斯 （ Mallows ) 提出（参见 Krasker and Welsch , 
1982)，它只包括叫权数——也就是说公式 4 . 1 7 中功（工 £ ) = 1。权数叫由帽子 
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值计算而来。因为帽子值的取值范围为0到1，所以权数取=保证了 
杠杆效应高的观察案例得到的权重比杠杆效应小的案例小（即如果& > 均 ，则 
叫< 叫） ①。这一处理策略初看起来似乎很有道理，但实际上是有问题的，因为 
即使与数据主体的模式一致的“好的”杠杆点的权重也被削减了,从而造成了效 
率的损失。 

史威普 (Schweppe) 提出的解决办法(在汉斯金等人的著作中有介绍，参见 
Handschin et al. , 1975) 是根据残差的大小来对杠杆效应权数进行调整。为 


了得到这一结果，权数 w , 的定义与马娄斯的一样= VI — ^ ，但现在 MCr ,) 
=叫(见 Chave and Thomson ，2003) 。尽管史威普估计量的崩溃点比没有考虑 
杠杆效应的常规 M 估计的崩溃点要高，不过马荣娜、布托斯及约哈依 
na , Butos and Yohai , 1979) 表明它的崩溃点从来没有高过1/(/>+ 1)，其中夕 
为模型要估计的参数的个数。换句话说，随着维数 ( dimentionality ) 增加，模型 
的崩溃点将向 BDP ^ O 靠近。这尤其会带来麻烦,因为随着模型中的变量增 
加，对权势案例的探测却变得越来越困难。另外，因为它们没有考虑^值与数 
据主体的模式的一致程度就直接根据: r 值来削减案例的权数，使得估计的效率 
退化(参见 KraskerandWelsch ， 1982)。其他证据还暗示史威普估计量在误差 
分布不对称时不具备一致性 (Carroll and Welsh , 1988) ，这意味着它们对更常 
见的特异值出现在单侧的问题无能为力，而这正是本书主要关注的问题。 

为了尝试解决这些问题，其他的 GM 估计程序则首先完全移除这些高度异 
常的案例，然后再对剩下的“好”案例应用 M 估计 (Coakley and Hettmansperg - 
er ，1993; Chave and Thomson , 2003) 0 其中最值得一提的，应该算寇克里和赫 
特曼斯伯格的史威普一步估计 (Schweppe one-step estimator ， SIS )， 它由原始 
的史威普估计量扩展而来。这一估计量比原始估计量好的地方，在于它的杠杆 
权数考虑了观察案例与数据主体部分的一致性。换句话说，它考虑了观察案例 
是“好”的杠杆点还是“坏”的杠杆点，只给予后者较轻的权重。这样，在高斯一马 


①原书有误，权数的字母应该是议，而非原书的％——译者注 
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科夫假定下，相对于 OLS ， 估计它有95%的效率。 

SIS 估计量初始的残差和残差尺度来自于崩溃点更高的回归，而不像此前 
发展出来的 GM 估计量一样取自 OLS 回归。它使用鲁索的 LTS 估计来获得初 
始估计，从而使得崩溃点 BDP = 0. 5。这种方法也不同于马娄斯和史威普估计， 
它在纳入来自 LTS 回归的原初估计后，只经过一步而非迭代的方式就计算出最 
终的 M 估计(因此被命名为“一步估计”)。不过，尽管 SIS 估计量比其他 GS 估 
计量效率更高，在正态分布及大样本情况下甚至能够与 OLS 估计媲美，仿真研 
究显示，它们的效率在 n 很小时非常低(见 Wilcox , 2005： 438—440). 

S 估计量 (^Estimators) 

为了应对 M 估计崩溃点过低的问题， Ham Pe l (1975) 建议考虑残差的尺度。 
按照这一 1 思路，鲁索和约哈依 （Rousseeuw and Yohai , 1984,又见 Rousseeuw 
and Leroy ? 1987) 提出了 S 估计量。 S 估计是使得残差离散性最小化 的解： 

min f (q (身），…，& ( 彦 ）） [4.18] 

这显然可以和 OLS 进行比较，后者最小化的是残差的方差。因此， OLS 估计可 
以被看作是 S 估计的特例，一个不那么稳健的特例。而稳健 S 估计最小化的不 
是残差方差，而是残差尺度的某种稳健 M 估计： 

士 iMlth 6 [ 419] 

其中&为常数，定义为& = E 0 [ 〆 e )] ，而$代表标准正态分布。求等式 4. 19的 
导数，并解出下式的结果： 


\tAfy b ^ 4 . 20 ] 

其中少由某一合适的权数函数替代。和绝大多数 M 估计程序一样， Huber 权 
数函数或双权函数是经常被使用的。尽管 S 估计的崩溃点 BDP ^ 0. 5, 但代价 
是，它们的效率相对于 OLS 估计而言非常低（大概只有 30%)(Croux, Rous¬ 
seeuw and Hossjer, 1994) 0 
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广义 S 估计量 (Generalized S-Estimators) 


克鲁克斯等 (Croux et al _ ，1 9 94)提出 了广义 S 估计 （Generalized S - Esti - 
mates , GS 估计）以试图解决原版 S 估计量的低效率问题。这些估计量是通过 
寻找残差的尺度的某种 GM 估计量而产生出来的。 GS 估计量的一个特例是最 
小四分位差估计量 （least quartile difference estimator , LQD )， 这一估计量并行 
计算时用四分位差 (interquartile range ) 来估计变量的尺度。 LQD 估计量是这 


样定 义的： 

min Q n Cei » e n ) 


[4. 21] 

其中： 

Qn = { 1 ^ — ej ; z (^).(p 


[4. 22] 

且： 

, n + p +1 


[4. 23] 

而 > 为模型中参数的个数。更简单地讲，这意味着 a 是集合 { 

ei—ej 

； i < j ] 

的 (^) 个元素中的第 

(^) 个序次统计量 (order statistic ) 0 尽管这些估计量比 


S 估计量更有效率，但带有“轻微增强的最差案例偏差 (slightly increased worst - 
case bias)”(Croux et al . ， 1994:1271) 0 

约哈依和扎马尔 (Yohai and Zamar ，1988) 的 r 估计同样是通过将残差尺度 
的某种估计最小化来定义的，但其权重随着潜在的误差分布是自适应的，由此 
产生了崩溃点很高且效率很高的误差尺度估计。尽管如此，杠杆效应高的点并 
没有被考虑到，因此估计量的效率仍然受到阻碍。菲尔蒂 （Ferretti et al . ， 
1999) 曾试图利用广义 r 估计 (generalized r estimates ) 来解决这一不足，它使用 
的权重考虑到了杠杆效应高的观察案例，处理方式和由 M 估计扩展而来的 GM 
估计的很像。这种方法具有很髙的崩溃点(高达 0. 5) 和相对于其他 GS 估计更 
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高的效率(尽管仍然只有75%)。但是，相对于很多其他估计量，75%的效率仍 
然太低，这限制了 S 估计作为单独估计量的应用。不过，因为它们对特异值具 
有很强的抗扰性， S 估计在效率高得多的 MM 估计的运算中作用很大。 

MM 估计量 (MM-Estimators) 

MM 估计最先由约哈依 ( Yohai ，1987) 提出，现已变得越来越流行，或许可以 
说是目前使用最多的稳健回归技术。它们同时具有高崩溃点(50%)和良好的效率 
(在高斯一马科夫假定下，效率约为 OLS 估计的95%)。它的名称中 “ MM ” 指的是 
这种估计使用了一个以上的 M 估计程序来计算最终的估计。与 M 估计的情况一 
样，迭代再加权最小二乘法 0 RLS ) 被用来求解最终估计。程序 如下： 

(1) 系数及 (1) 和对应残差的初始估计取自于具有高度耐抗性的回 
归（即崩溃点为50%的回归）。只要这一估计量具有一致性，不一定需要有 
效率。因此，带 Huber 权数或双平方权数的 S 估计（可以被看作是 M 估计 
的一种形式)通常被用在这一阶段。 [19] 

(2) 第一步初始估计所得残差被用来计算残差尺度的某一 M 估计，心。 

(3) 从第1步得到的残差^ (1) 的初始估计和从第2步得到的残差尺度 
S e 的初始估计被用来进行加权最小二乘的第一次迭代，以确定回归系数的 
M 估计： 


/ a^Xi = 0 [4. 24] 

(-1 

其中叫通常为 Huber 权数或双平方权数。 

(4) 使用初始 WLS 估计(第3步）的残差计算出新的权重 W 2) 。 

(5) 在保持第2步、第3步、第4步的残差的尺度不变的情况下，不断 
迭代直到收敛为止。 
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各种估计量的比较 

表 4. 1总结了我们讨论过的多数估计量的一些稳健特性。给出的内容包括 
崩溃点，该估计量的影响函数是否有界，以及相对于 OLS 估计量的大概渐近效 
率。很明显， LAV 和 M 估计量的崩溃点相对较低，受数据具体形式的影响大, 
这两种估计量的表现有时甚至不比 OLS 估计量好。哪怕一个特异案例，就能使 
这些估计变得毫无用处。有限影响 R 估计量同样好不了多少，其崩溃点小于 
BDP = 0. 2 0 与其他估计量相比，这几者几乎可以忽略不计，至少从单独使用 
(时的功效)来看是这样。 


表 4.1 各种回归估计置的稳健属性 


估计量 

崩溃点 

有限影响 

渐近效率 

OLS 

0 

No 

100 

LAV 

0 

Yes 

64 

LMS 

0. 5 

Yes 

37 

LTS 

0.5 

Yes 

8 

LTM 

0.5 

Yes 

66 

有限 R 估计 

<0.2 

Yes 

90 

M 估计 (Huber， 双权） 

0 

No 

95 

GM 估计 (Mallows，Schweppe) 

l / cp + l ) 

Yes 

95 

GM 估计 (SIS) 

0.5 

Yes 

95 

S 估计 

0.5 

Yes 

33 

GS 估计 

0-5 

Yes 

67 

广义估计 

0.5 

Yes 

75 

MM 估计 

0. 5 

Yes 

95 


我们还需要注意那些效率很低的估计量，例如 LMS ， LTS ， LTM 和 S 估 
计量。如果我们的目标在于保证耐抗性，而无需对总体进行推论，那这些估计 
量可能还是合适的。相反，如果对特异案例的性质不是很了解，那最好别使用 
这些估计量。盲目使用将会导致效率较低的估计，错过其他效率更高的可能 
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选择。例如，如果误差服从正态分布，那使用 OLS 估计量将会好很多。 

M 估计尽管崩溃点很低，但效率高仍是一个很好的属性。将其与耐抗 
性更高的其他估计量组合使用时，新估计量将同时具备较高的抗异常值干 
扰能力和更高的效率。例如，如果 M 估计使用的初始残差来自于耐抗性高 
的 LTS 拟合，得到的就是 SIS GM 估计量，后者对残差特异案例及杠杆效应 
高的案例都具有很强的抗扰力，并能保持相对于 OLS 估计量 95% 的效率。 
以 LMS 估计或 S 估计的残差来计算 M 估计，也能得到类似高效且稳健的 
MM 估计量。 

例子 4.1 : 仿真数据 


现在我们回到最早在第 3 章介绍的那个包含各类特异值的仿真数据。我们 
对这 3 个“被污染”数据集都试探了 6 个不同的回归估计 :一个 OLS 估计、一个 
LAV 估计、一个 M 估计(使用的是 Huber 权数）、一个 GM 估计(确切地讲是 
Coakley-Hettmansperger 估计量）、一个 S 估计，最后一个是 MM 估计。每个数 
据集的各种估计拟合线都呈现在图 4. 1中，图中标出了各“污染”案例。 

首先来看垂直特异值的情况，不管使用何种回归方法，基本结论几乎都一 
样，至少从斜率系数来看是这样。事实上，除了 OLS 回归线在截距上偏离较远 
外，其他各方法的回归线几乎难分彼此。另外，尽管 OLS 截距稍微小于其他模 
型的截距——表明回归直线被拉向特异值——但也并非如此不同以至成为问 
题。存在“好”的杠杆点 (B) 时，各种估计彼此更为相像，除 LAV 估计线比其他 
直线稍高外，其他回归直线都重叠在一起。而在数据中存在“坏”的杠杆点 (C) 
的情况下，各估计的差异较大，尽管最显著的差异在 OLS 估计和其他估计之间。 
如我们在第 3 章中看到的， OLS 回归直线被严重拉向特异案例。但是，没有一 
个稳健回归估计被特异值严重影响。因此，很清楚，在最后这种情形下应该选 
择更为稳健的方法。如果是前两种情况，该怎么办呢？（实际上)这两种情况下 
各种估计之间的差异很小。 

为了回答这一问题,我们来看残差的分布，看 OLS 估计的精度是否受到了 
影响。回想一下就能知道，残差宽度较小时， OLS 估计的标准误是最小的。 
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图 4. 2呈现了残差的分布情况，表明垂直特异值给 OLS 估计的标准误带来了问 
题(图 A )。 相反，“好”的杠杆点的出现并没有影响残差的良好表现（图 B )。 将 
图 4. 1和图 4. 2的信息综合到一块，表明 OLS 估计只适合于带好杠杆点的数 
据。既然所有稳健估计量得出的结论大体一样，那么在其他两种情况下，像 
MM 估计量这样有效率的估计量就是最好的选择。 


A. 垂直特异值 B . “好”的杠杆点 C. “坏”的杠杆点 



— OLS -LAV M - 估计 （ Huber ) 

… GM - 估计 一 S - 估 if — MM - 估计 



图 4.1 含3类特异值的人造数据的各种回归估计 



图 4. 2三个"被污染"数据集的 OLS 回归拟合所得残差的密度估计 
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例 4 . 2 : 預瀏公众态度的多元回归 

下面我们回到跨国公众态度的数据，继续只关注那些新建立民主制度的国 
家和地区。在前面，我们使用了 OLS 模型，以人均 GDP 和基尼系数来预测公众 
态度。诊断和初步分析表明，模型在捷克及斯洛伐克被删除的情况下表现得更 
好(见表3.2)。还记得如果包含所有案例，那么 OLS 模型中人均 GDP 的作用 
是显著的正作用0 = 0.0175)，而基尼系数的作用在统计上不显著（身= 
0. 00074)。而在两个特异值被移除后，人均 GDP 的系数降到原来的1/3,且统计 
上不再显著（》= 0. 0063); 相反，基尼系数的斜率变成了原来的7倍并且统计 
显著（含= 0.00527)。 

表 4. 2给出了对上述相同数据拟合几个稳健回归的结果。尽管它们之间有 
一些小的差异，但 M 估计量、 MM 估计量以及 GM 估计量的结果从人均 GDP 
和基尼系数的影响来看非常相似。这些方法得到的结果也与删除两个特异案 
例之后的 OLS 回归的结果相似。 LAV 回归也很好地发现了基尼系数和公众态 
度之间的关系，但得到的人均 GDP 的效果要小很多。不过，这一变量的作用即 
便是在移除了特异值的 OLS 回归中也统计不显著。总的来讲，各种稳健回归方 
法在应对权势案例上，做得比一般最小二乘回归好得多。 


表 4. 2公众态度数据的各种稳健回归估计——新建立民主制度的国家和地区 



LAV 

回归 

M 估计 
(Huber) 

M 估计 
( 双权） 

MM 估计 

广义 M 估计 
(Coakley- 
Hattmansperger) 

截距 

-0. 079 

-0. 063 

—0. 091 

-0. 097 

0. 939 

基尼系数 

0. 0045 

0. 0039 

0. 0049 

0. 0051 

0. 0041 

人均 GDP ( 千美元） 

0. 0059 

0, 0089 

0. 0052 

0, 0057 

0. 0065 

71 

26 

26 

26 

26 

26 


回 扫诊断 II 考察一稳健回妇相关的特异值探測法 


上面的讨论展示了稳健回归在限制特异案例影响上的优点。将它们作为 
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最终方法进行报告当然很合理，不过，它们也能被当作是初步分析的诊断工具 
(见 Atkinson and Riani ，2000) 。从这方面来讲，它们是对第3章讨论过的探测 
特异案例的传统技术的很好补充。 

对于测量权势的指标(如 Cook’s D ) 的批评之一，是它们不稳健。它们的计 
算基于样本均值及协方差矩阵，这意味着它们经常会遗漏特异值（见 Rous - 
seeuw and van Zomeren , 1990) 0 更具体地讲 ， CookS D 容易受“掩盖效应 
(masking effects )” 的影响，也就是说，如果存在一组权势点的话，它们会掩盖彼 
此的影响。我们已经知道，偏回归图在解决单个回归系数的掩盖效应上很有用 
处。而来自稳健回归的权数及残差信息则能在评估案例对回归的整体影响时 
帮助我们应对掩盖效应。 


最终 IWLS 拟合权数标码图 （Index Plots of Weight From the Final 
IWLS Fit) 


将稳健回归当做诊断工具的直接方式之一，牵涉到最终 IWLS 拟合的权 
数。不过，不同模型的权数的意义不同，记住这一点非常重要。不同方法根据 
异常的类型 (type of unusualness) 给予观察案例的权数差别很大。对于 M 估 
计，关于权数我们唯一可以说的是，它们指示着在 OLS 拟合中残差的大小，也就 
是说案例是否为垂直特异案例。单独检查这些权数，并不能提供任何有关杠杆 
效应，因而也不能提供有关权势的信息，因为 M 估计在给出权重时根本不曾考 
虑这些因素。相反， GM 估计在削减权重时，同时考虑了案例在 OLS 回归中的 
残差和杠杆效应的大小，尽管此时对于权重的检查不允许我们对这两个方面进 
行区分。而来自 MM 估计的权数能够很好地指示案例对于回归整体的影响，因 
为这种估计的第一步具有很强的抗异常值扰动能力。 

为评估来自各种稳健回归的权数的表现，将它们与对同一数据进行拟合的 
0LS 回归的库氏距离 (Cook’s Distances) 及其他特异值探测指标进行对比，能够 
提供很多有益的信息。表 4. 3就包括这些信息。在第3章中，通过库氏距离确 
定捷克和斯洛伐克为权势案例。所有稳健回归也都发现:对这两个特异案例， 
赋给它们的权数要相对小得多。换句话说，权数的大小表示着异常的程 度:权 
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数越小，观察案例越异常。 

表 4. 3来自 OLS 回归及稳健回归的诊断信息 


OLS 诊断统计 稳健回归最终权数 


国家或地区 

Cook’s D 

帽子值 

学生化 

残差 

M 估计 
(Huber 
权数） 

M 估计 
(双平方 
权数） 

MM 

估计 

GM 

估计 

亚美尼亚 

0. 0030 

0. 10 

-0. 27 

1 

0.81 

0.87 

0.35 

阿塞拜疆 

0. 0011 

0, 10 

-0.17 

1 

0. 97 

0. 98 

0,86 

孟加拉国 

0. 0012 

0,18 

- L 13 

1 

1 

1 

1 

白俄罗斯 

0. 0096 

0. 07 

— 1. 63 

1 

1 

1 

1 

巴西 

0. 0120 

0. 26 

0. 36 

1 

1 

1 

1 

保加利亚 

0. 0011 

0. 07 

0. 21 

1 

0. 82 

0.88 

0. 38 

智利 

0. 1350 

0. 24 

1.14 

0. 72 

0. 55 

0.72 

0. 18 

中国 

0. 0005 

0. 073 

0. 13 

1 

1 

1 

1 

克罗地亚 

0. 0073 

0. 063 

一 0. 56 

1 

1 

1 

1 

捷克共和国 

0. 3629 

0. 17 

2. 60 

0. 72 

0 

0 

0, 62 

爱沙尼亚 

0. 0155 

0. 04 

— 1.00 

1 

0. 85 

0. 89 

0.40 

格鲁吉亚 

0. 0011 

0. 07 

-0.21 

1 

0. 98 

0. 99 

1 

匈牙利 

0. 0273 

0. 098 

-0.87 

1 

1 

1 

1 

拉脱维亚 

0. 0093 

0. 07 

一 0. 59 

1 

1 

1 

1 

立陶宛 

0, 0040 

0. 04 

一 0. 51 

1 

0.99 

1 

1 

墨西哥 

0. 0003 

0.17 

0. 06 

1 

1 

1 

1 

摩尔多瓦 

0. 0038 

0.112 

0. 295 

1 

0. 96 

0. 97 

0. 84 

尼日利亚 

0. 0504 

0. 14 

0. 95 

1 

0.89 

0. 93 

0. 47 

罗马尼亚 

0. 0004 

0. 08 

-0. 11 

1 

0. 91 

0,94 

0. 55 

俄罗斯 

0. 0189 

0.09 

一 0,76 

0. 87 

0. 68 

0. 77 

0.27 

斯洛伐克 

0. 6990 

0.17 

4.32 

0. 17 

0 

0 

0.05 

斯洛文尼亚 

0. 2691 

0. 24 

_ 1. 66 

1 

0. 99 

0. 99 

1 

中国台湾地区 

0. 1296 

0.15 

_ 1. 50 

1 

0. 96 

0. 97 

0.80 

土耳其 

0. 0011 

0. 05 

0. 26 

1 

0. 89 

0. 93 

0. 46 

乌克兰 

0. 0024 

0. 10 

-0.26 

1 

0. 83 

0. 88 

0.38 

乌拉圭 

0- 0059 

0, 07 

0. 46 

0. 95 

0. 65 

0. 78 

0.24 


来自表 4. 3的证据激发了我们对稳健回归权数制作带标签散点图的想法， 
就像对 Cook’s D 所做的那样。图 4. 3中即做了这样的事。虽然说三种稳健回 
归方法都发现了这两个问题最严重的观察案例，但 GM 估计还给了另外9个案 
例小于 0. 5的权重，而其余方法给予其他任何案例的权数都不小于 0. 7。前面 
已经说过， GM 估计的独特性，是因为它同时考虑了残差和杠杆效应的规模。 
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1991) 绘制出了 RR 图(“残差一残差”图），这一名字称呼的是一种散点图矩阵， 
它包括用 OLS 估计的残差分别对其他几种不同稳健回归的残差做出的多个散 
点图。如果 OLS 假定完全满足，那么 OLS 残差和其他所有稳健回归的残差之 
间将存在完美的正相关，且斜率等于1[被叫做“同一线 (identity line )”]。 令来 
自第 j 个回归 估计反的第； 个残差为 y —工 W ” 那么 

ik ( 卢】 )— &( 彦 2 ) II = II ■(及 2 ) I 卜 II w(n)ii 

^ II II ( II - 戶 II + II 冷2 — 卢 II ) [4. 25] 

这意味着 :如果 回归假定成立，随着〃趋近于00,围绕着同一线的散点将越来越 
紧。但如果存在特异值的话，斜率将不等于1，因为 OLS 回归无法抵抗它们，而 
稳健回归却可以。 

公众态度数据的 RR 图呈现在图 4. 4中。虚线为同 一线; 实线为纵坐标所 


0.5 

2 0.3 

° 0.1 

一 0. 1 

-0. 1 0. 1 0.3 0.5 

LAV 





-0. 1 0. 1 0. 3 0. 5 
GM - 估计量 




图 4. 4 RR 图——以人均 GDP 及基尼系数对公众态度进行回归{新建民主国家及地区) 
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示回归方法的残差对横坐标所示回归方法的残差的回归直线。第一列的几个 
图是最重要的，因为它们呈现了 OLS 残差对其他各种稳健回归残差的回归情 
况。所有这些图中的两条直线相差得都很远，这一事实表明， OLS 估计受到了 
特异值的严重影响。捷克和斯洛伐克在 OLS 回归中的残差小得多，意味着它们 
的权势非常大。再看其他的图，可以发现各种稳健回归的残差彼此十分相像， 
尤其是 MM 估计和 GM 估计，两者的残差几乎完全相等。 


穗健矩离 (Robust Distances) 


我们也可以考虑只与一种稳健回归有关的诊断方法。例如鲁索和冯•佐 
默伦 (Rousseeuw and van Zomeren ， 19 9 0) 认为将稳健残差对稳健距离作图以 
探测复奇异点 (multiple outliers) 比传统方法更好，其中稳健距离建立在马氏距 
离 (Mahalanobis distance) 基础之上，但定义时使用的是稳健协方差矩阵（关于 
这一话题的争论还可以参见 Cook and Hawkins, 1990; Ruppert and Simpson ， 
1990; 及 Kempthorne and Mendel ， 1990)。 因为这些诊断并不关系效率问题，所 
以耐抗性极高的 LMS 或 LTS 回归的残差被使用得最多。 

所谓马氏距离测量的是一个观察案例: r , 相对于由数据集 X 定义的所有数 
据点的中心的距离。定义 如下： 

MD, = a /CjCi — x)cov (X) -1 ixi — jc) T [4. 26] 

其中 $ 为 X 的重心， cov ( x ) 为样本协方差矩阵。由于特异值能够影响均值和 
协方差矩阵，因此它们不一定能够通过 MD / 被发现。因此鲁索和冯 • 佐默伦的 
稳健距离 RD ,(1990) 在定义时将 cov ( X ) 和 f 替换为更为稳健的来自于最小体 
积椭圆体估计量 (minimum volume ellipsoid estimator ) 的中心和协方差矩阵(更 
详细的内容请看 Rousseeuw ， 1985)。通常认为 丨 〆 | > 2. 5的标准化稳健残差 
是有问题的 CD 。 类似的，如果 RD , 大于自由度与模型估计的参数个数相等的卡 
方分布的 0. 975分位点取值 (percent point ) ，那么该稳健距离被认为有过高的 


①本句中的公式原书可能有错，绝对号应该加在变量上。——译者注 
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杠杆效应。 

公众态度数据的鲁索和冯 • 佐默伦的回归诊断图见图 4. 5。图中和稳健距 
离相对的是来自 LTS 回归的标准化残差。尽管从稳健距离来看，没有一个案例 
有异常高的杠杆效应，但稳健残差显示有3个案例是特异值。与截至目前为止 
我们所做的其他分析一致，斯洛伐克和捷克是其中之二。第3个案例是智利，刚 
好超过了拇指规则定义的分界线一点点。 



和上面讨论过的方法一样，用来甄别特异案例的传统诊断图（第3章讨论 
过)也能扩展到稳健回归模型上。由于它们通常的解释方式和在 OLS 回归中的 
一样,这里就不再讨论了。关于这些诊断的更多信息，请看麦基恩和希哲的作 
品 （McKean and Sheather ， 2000)。与稳健回归相关的其他技术还可以看冯荣 
锦或佩纳及约哈依的著作 ( Fung ， 1990; Pena and Yohai , 1999)。 


第 5 章 I 稳健回归的标准误 


分析标准误 (analytical standard error ) 很容易就能从某些类型的稳健回归 
中计算出来，但并非都是如此。不过，即使能够计算分析标准误，对小样本来 
说它们也很不可靠。因此，常常需要使用自助法 ( bootstrapping ) 来计算标准误。 
所以这一章开始将简要讨论渐近标准误 (asymptotic standard errors ) ， 然后再探 
索各种类型的自助标准误及置信区间。 


稳健回归估计量的渐近标准误 (asymptotic standard errors) 


分析标准误可以在 S 族和 M 族估计量(包括广义形式及 MM 估计量）中得 
到。这些估计量的渐近标准误 ( ASE ) 都是由与最终 IRLS 拟合的系数对应的渐 
近协方差估计矩阵的对角线元素的平方根给定的， v ($)= 4 ( X T WX ) - 1 
(Draper and Smith , 1998:575; 还可参看 Hill and Holland , 1997 以及 Birch and 
Agard , 1993)[ 21 ]， 其中 W 为最终权数矩阵 j 为残差方差。残差的方差是这样 
定 义的： 


4 一『1 ( X T W - D - 1 X T W - 1 [5.1] 

n — p ^ 

其中 > 为模型中的参数个数。这些估计结果在大多数统计软件的回归输 
出中都能找到。 

如果样本规模”相对于要估计的参数个数足够大，渐近标准误 ( ASE ) 被认 
为是可靠的 ( Yohai ， 1987) D 但如果 n 很小（比方说小于 40) ， 则难以信任 （ Li ， 
1985 ; Huber , 20( H : 16 4 )。 其他证据也 表明： 随着权势案例的增加，渐近标准误 
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的可靠性将会衰减 ( Stmxnberg ， .1993)。因此通常建议只在样本较大时才使用 
渐近标准误 ( ASE )。 而样本规模很小时，则可通过自助法获得另一种标准误或 
置信区间。[ 22] 


自助标准误 (Bootstrapped Standard errors) 


自助法首先由埃夫戎 (1979; 又见 Efron , 1981) 提出，它可以用来计算那些 
渐近标准误不那么容易求导或者作为使用条件的必要假定被违背的统计量的 
标准误及置信区间。自助标准误是通过反复从原始样本中抽样算出来的。尽 
管在 OLS 假定满足时自助回归并不可取——在这种情况下， OLS 估计是效率 
最高的无偏估计——但如果假定没有得到满足，那么自助法将变得很有用。 
对稳健回归而言，当样本规模很小时，自助法最有用，因为在这种情况下 ASE 不 
足为信。稳健回归的自助回归可以通过两种方式实现.•随机 x 自助法 (raridomi 
bootstrapping ) 或固定 : c 自助法 （ fixed-x bootstrapping ) 0 


随机 X 自助法 

随机; c 自助法是对数据集的观察案例进行再抽样。也就是说，它是从数据 

矩阵中抽取数据行。当回归量随机时 (regressors are random ) -即每 一个新 

的随机样本产生的结果应该不同——这是一种合适的做法，在大规模抽样调查 
数据中就是这样 (Mooney and Duval , 1993:17)。假定一个只有一个自变量％ 
和一个因变量％的数据集。获取随机工自助标准误的步骤非常 简单： 

(1) 从原始样本数据 ( x ， y ) 中回置性地随机抽取出 B = 1，…， i ? 个 
规模为 m 的样本这 i ? 个样本被叫做自助样本， B 。 对于小样 
本，通常需要抽取尺=#个自助样本。对大样本来讲，抽取 f 个样本是不 
实际的（如，运算 1000 1 2 °°°个自助样本将会是一件愚蠢的事情），但1000个自 
助样本通常被认为是可以接受的。 

(2) 对1?个自助样本中的每一个都计算稳健回归估计歹。*和 
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使用^和身 r 的经验分布计算^和^的标准误，使用的推论方法和 
用于来自大总体的随机样本的经典方法一样。换句话说，自助标准误是由自助 


样本统计量的分布计算而来，而非来自该统计量未知的抽样分布。 


固定 x 自助法 

固定工自助法是当解释变量(即模型矩阵 X )被假定固定不变时，随机： T 自 
助法的一种可供选择的适当替代物。这种方法比随机^自助法相对复杂一些， 
它是对回归模型的残差进行再抽样 (resamples the residuals ) 而不是对观察案例 
本身再抽样。它的程序 如下： 

(1) 将初始稳健回归的预测值 A 作为自助回归反应变量的期望值。 

(2) 和通常一样，从回归模型计算出残差：^ —5^。 

(3) 从残差^中回置性地随机抽取出规模为 n 的样本 B = l ， …， R 。 
和在随机 X 自助法中一样，自助 1000 次是通常的选择。再抽样得到的残 
差叫作 

(4) 将再抽样得到的残差$加到回归预测值上，得到固定工自助样 
本，= A + g ， 形成 i ? 套自助预测值。 

(5) 将 i ? 套自助预测值中的每一套都对固定模型矩阵 X 做回归，得到 
套回归系数。 

(6) 从自助法复制得到的回归系数的经验分布产生出置信区间（或标 
准误)。 


置倌区问的相造 (Constructing Confidence Intervals) 


不管是使用随机工自助法还是固定工自助法，自助回归系数的平均值 都是： 


估计的自助方 差为: 
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八八 S 仏-及： ) 2 

V 关 R _ 1 - [5. 3] 

有三种类型的置信区间通常被考虑：（1)正态论置信区间， （2) 分位置信区 
间， （3) 误差修正分位置信区间。通过作图对自助分布进行检查有助于决定使 
用何种置信区间。 

如果自助抽样分布的均值无偏，也就是$ * =_，那可以考虑正态论区间或 
分位区间。顺着很多统计量都服从渐近正态分布这一想法，当自助抽样分布为 
渐近正态分布时，正态论区间 （ normal-theory intervals ) 也就具有合理性。一个 
100(1— 的置信区间按照标准方式计算， 如下： ’ 

/?=含 :£ z a / 2 S 会 * (卩 * ) [5. 4] 

其中标准误的自助估计，)，是自助抽样分布的标准差。 

如果自助统计量的均值无偏而自助抽样分布非正态的话，选用分位区间更 
合适。这种区间的计算，首先需要将自助统计量从小到大 排列： 

然后将置信区间限定在自助抽样分布的《/2和 1— a /2 分位, 
$ ln ， </3<^ /2 ”其中 100(1 — a )% 为设定的置信水平。 

正态论置信区间及分位置信区间在自助估计无偏时效果良好，大样本时通 
常都是这种情况。如果估计量偏差相当大——小样本情况下很常见——那就 
必须进行调整。为达到这个目的，偏差修正置信区间 （bias corrected [ BC ] con - 
fidence intervals ) 使用了一个包含两个纠正因子，2和 A 的正态化转换。 Z 是这 
样定 义的： 


Z ^0 ~ l [. 扣 H < T ) ] [5. 5] 

其中中为标准正态密度函数， # f =1 CT ； < T)/CR + 1) 是初始样本估计 
(3 下自助复制系数的修正比例 （the adjusted proportion of the bootstrap repli ¬ 
cates below the original sample estimate ) 0 修正因子 A 定义如下： 
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E d -〒 ) 3 

A = ―^- = - [5_ 6] 

6 [2 (T^-frf 2 
1 = 1 

其中丁 ( 4代表移除第/个案例的折刀法再抽样 [>] 的了值 ，是 n 个折刀值 
( jacknifevahies ) 的平均数，也就是，〒=偏差修正置信区间 （BC 
confidence interval ) 的上限和下限再按照下面的方式计算出来： 


BChuuer 


=0 Z-^ 


n 


BC 


24 



1-A(Z^)J 


[5_7] 


关于 BC 置信区间的更多细节，可以看埃夫戎和提布希拉尼的合著 (Efron 
and Tibshirani , 1993:第14章）以及戴维森和辛克利的书 （Davidson and Hin - 
kley , 1997:103 — 107)。 


例 5 . 1 :民主对收入不平等及人均 GDP 对公众态度的彩_的影《 


继续使用跨国公众态度的数据，这次我们对以基尼系数、人均 GDP 和民主 
制度解释公众态度的模型进行探索。初步的分析已经显示基尼系数和民主之 
间存在交互作用，因此我们在模型中纳入了这一交互项。诊断分析虽然在这里 
没有呈现出来，但我们 发现: 捷克和斯洛伐克仍然对回归估计有着异乎寻常的 
影响，这意味着稳健回归是 OLS 回归的很好的替代者。各种模型的回归系数及 
标准误都在表 5. 1中报告出来了。表中包含的估计分别来自于包含所有案例的 
OLS 回归，两个特异值被移除的 OLS 回归， M 估计，以及 MM 估计。 

尽管报告了稳健回归的渐近标准误，但它们并不足信，因为样本的规模太 
小 （n = 48) ，因此，这里也报告了自助标准误。观察案例代表的是国家或地 
区——因而模型矩阵可以合理地被认为是固定的——所以这里使用固定 x 再 
抽样来计算自助置信区间。我们从初始稳健回归的残差中抽取了 1000个自助 
样本。图 5.1 只给出了民主系数 M 估计的自助(残差)诊断图-个直方图 
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和一个自助分布的分位比较图 （quantile comparison plot of the bootstrap distri - 
bution )。 直方图中间的垂直虚线代表自助估计的均值，可以看出它和稳健回归 
的系数几乎完全相等 (卜 0. 374)。也就是说，自助估计的结果是无偏的。而分 
位比较图表明分布稍偏重尾，但大体还是正态分布，这告诉我们应该使用分位 
置信区间。其他系数的回归诊断结果类似，因此，表 5. 1中所有自助标准误都是 
基于分位置信区间的结果。 
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图 5.1 来自 M 估计稳健回归的民主系数的自助复本诊断图 


表 5. 1中最显眼的是 OLS 估计中两个特异值的持续有害影响。这两个特 
异案例存在时， OLS 回归系数没有一个统计显著。当它们被删除时，除了人均 
GDP 仍然不显著外幼= 0. 82), 其他系数都显著提高，并且都变得统计显著了 
(最大的 f = 0. 0032)。两个稳健回归方法的差异也很明显。与前面的例子相 
反①，在这里，我们 发现: M 估计比 MM 估计更容易受特异观察案例影响。因为 
M 估计在降低观察案例权重时仅考虑它们的残差,而未考虑杠杆效应。但捷克 
和斯洛伐克除了有大残差之外，还有很大的帽子值。这种过高的杠杆效应给 M 


①原书为 “contrary to the previous example ' 实际上， M 估计未考虑杠杆效应，不具有界影响 
函数，而 MM 估计具有有界的影响函数，比 M 估计更稳健，尽管前面的例子中 M 估计和 MM 估计相 
差不大。译者注 
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估计造成了麻烦,尤其是对基尼系数, M 估计中这一变量的效应要比不带特异案 
例的 OLS 估计和_估计的小得多。而有限影响 MM 估计与不带两个特异案例 
的 OLS 估计结果几乎相同，这表明前者给予这两个特异案例的权数为0。第三点 
值得注意的，是渐近标准误和自助标准误很相似。没有一个系数因为标准误的差 
异而严重影响到显著性的检验，从而表明渐近标准误用在这个例子里还不错。 

为了更清楚地查看这些模型估计结果的差异，图 5. 2给出了 OLS 回归和 
MM 回归的拟合值，它们呈现了民主和基尼系数之间的交互作用。要想计算这 
些预测值，需要将回归方程中的人均 GDP 设定为变量均值，但允许民主和基尼 
系数在各自的值域范围内变动。换句话说，这些回归拟合线呈现了一个人均 
GDP 为典型值的国家的基尼系数和民主制度的联合效应。考虑到 OLS 回归中 
没有一个系数统计显著，因此拟合图呈现的效应模式并不明显也就不奇怪了。 
相反，在 MM 估计中，交互作用明显很强。对于传统的民主国家，随着收人不平 
等(基尼系数)的提高，公众态度倾向于报酬平等的程度有所下降。对于建立民 
主制度不久的国家和地区，情况则恰恰相反。尽管方向不同，但基尼系数对新 
的和传统的民主体都有很强的影响。 

OLS 回归 MM - 估计 

1.35 
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第 6 章 I 广义线性模型中的权势案例 


广义线性模型 (Generalized Linear Models , 简称 GLM ) 由一般线性模型扩 
展而来，以适应分布非正态的因变量，包括那些非连续因变量。本章开始部分 
将概要描述 GLM 模型。然后简单讨论在 GLM 中探测特异案例的诊断方法。 
最后将对稳健广义线性模型进行介绍，并为 logistic 模型和泊松模型提供了实 
际的例子。 


广义线性模型 

这里我仅提供 GLM 的基本描述，并强调那些对于理解稳健广义线性模型 
所必需的信息。关于 GLM 的更丰富和具体的描述，可以看麦卡拉和内尔德 
(McCullagh and Nelder , 1989) 关于这一话题的经典著作(关于 GLM 的一般论 
述，还可以看其他著作如 Dobson , 1990； Fahrmeir and Tutz ，2001； Lindsey ， 
1997)。 专门面向社会科学家讨论 GLM 的作品，在本丛书中就有3本 （ Gill ， 
2001; Dunteman and Ho , 2005； Liao , 1994)。 

还记得线性模型是这样表 示的： 


yi = [ 6 . 1 ] 

；=] 

其中 ^ 被假定与线性相关，而误差项被假定相互独立，方差固定，并且服从正 
态分布。换句话说，线性模型代表的是给定各 x 的情况下^的条件 均值： 

k 


[ 6 . 2 ] 
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广义线性模型放宽了这些假定，以对服从指数分布的因变量的条件均值进行预 
测，它的一般形式 如下： 

fiyi ; di ; <p) = exp ^ a 〈沒) +[(5， f ) [6, 3] 

其中为代表位置估计量的标准参数 (canonical parameter ) ，而 p 为代表尺度的 
离散参数 (dispersion parameter ) 。也就是说， GLM 允许： y 的分布服从众多不同 
的指数族 外形： 


高斯分布 
二项分布 




od 泊松分布 
伽马分布 

^stc^stx ： 


具体的指数族由方程 6. 3中的 a，b，C 确定 u 

线性关系假定在 GLM 中仍然存在，但是是相对于线性预测值 (linear pre ¬ 
dictor )” 而非: y 本身： 

k 

rji = 2 [6. 4] 

；=i 

也就是说，等式 6. 3 中的标准参数 0 取决于线性预测值。更准确地讲，因变 
量的条件均值^是通过某种转换与线性预测值连接在一起的，这种转换被称为 
连接函数 (link function ) 〆 •） ： 


g(fJLi、= 7ji [6. 5] 

连接函数必须是单调函数 （monotonic ) 且可导 （differentiable ) ，能够取任意值 
(正的或负的），以保证 7 线14地取决于解释变量。当连接函数被设定为恒等连 
接 (identity link ) 而分布被设定为髙斯族 (Gaussian family ) 时，拟合的模型即为 
OLS 回归。其他任何连接函数得到的都是因变量 y 的期望值与自变量巧之间 
的非线性关系。表 6. 1呈现了 GLM 框架涵盖的一些重要分布族及对应的连接 
函数。 
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表 6.1 重要的指数分布族及相应的连接函数 


分 布 //的值域 连接函数，〆 ") 


正态分布 

( — 00 ， + 00 ) 

恒等函数 

= fJL 

二项分布 

(0, 1) 

Logit 函数 

gifx) = log 匚 "/Cl—")] 

(0, 1) 

Probit 函数 

gijj) = (") 

泊松分布 

(0, DO) 

对数函数 

旦 ("）=log(^) 


(0 ， OO) 

倒数函数 

g(ju) = jlT 1 

伽马分布 

(0, CO) 

对数函数 

〆"）=log(") 


GLM 广义线性模型的最大似然估计，是通过把方程6, 3看作是参数卢的某 
个函数求解出来的。通常来说，这意味着 把和# 有关的对数似然函数 ( log - like - 
lihood function ) 最大 化： 


n 

= logL (^3) = log U/k ; / a ) 

i = l 

n n 

=log U fCyi ; h ， jS) = 2 log 

i=i i*=i 


[ 6 . 6 ] 


最大似然估计结果可以用 Newton - Raphson 法或迭代再加权最小二乘法得 
到（见 Nelder and Wedderburn , 1972; McCullagh and Nelder ，1989)。 在对 
GLM 模型的 IRLS 估计中，因变量不是： y 本身，而是调整因变量 ^(adjusted de ¬ 
pendent variable ) ，它是适用于^的连接函数的线性化形式。我们先来定义第 
一次迭代的线性预 测值： 


iy (0) = X T 矿 0) 

CnXl) (riXp) (pXV 


并同时从中得到初始拟合值 /2 W 。 然后我们定义之 如下： 


[6. 7] 


C0> _ 

^ co) + 




/ 


卢 ) 




(0) ' 


[ 6 . 8 ] 


IRLS 中使用的二次加权矩阵 （quadratic weight matrix ) 由下面的表达式 
确定： 








V(fx) 


[6.9] 
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其中 v ( p ) 是在时给定的方差函数。而 Z 和都取决于当下的拟合值， 
因此需要一个迭代过程，以求出最终解。我们首先将^对工做回归，相应权数 
为 W ⑻，得到新估计的回归系数，以及由此而产生的线性预测值的新估计。 
通过使用新的2和 W 估计值，估计程序将持续下去，直到收敛为止，得到如下一 
般形式的标准 方程： 


吾 = ( X r WX )— 1 X T Wz [6.10] 

其中 z 代表经连接函数变换的调整因变量， W 为最终权数矩阵。 GLM 模型还 
能被拟似然估计 ( quasi-likelihood estimation ) 进一步扩展，这种估计在通常的连 
接函数设定基础上，允许对离散参数^而非 J 的整个分布进行设定(更多细节 
请看 Wedderburn , 1974) 。 

模型的偏差 ( Deviance ) 与最小二乘回归中的残差平方和的角色类似，它将 
当下研究的模型与相同数据的饱和模型庳进行比较。对于案例数为 n 的数据， 
带 n 个回归系数的饱和模型能够完美地拟合该数据，意味着它达到了最高可能 
达到的似然值。这一饱和模型的似然值为比较其他非饱和模型的似然值提供 
了基准。偏差测量的正是所设模型与饱和模型的差异程度。更确切地讲，它等 
于饱和模型的对数似然值与当下研究的模型的对数似然值之差的 两倍： 

DC /?, ^)= ZElogLC ^ Ss )]—2[ logL ( i 8)] [6 11] 

2[ logL (/3)] 

偏差在模型拟合程度的评估及模型参数的统计检验上扮演着重要角色，同时也 
提供了一种计算残差的方法，后者可被用来探测特异值。 

探测广义线性棋型中的特异案例 


与在 OLS 回归中一样，异常案例同样能扭曲 GLM 的估计。对于某些模 
型，如二分类 logit 模型和 probit 模型，特异案例的影响通常没有那么严重，因为 
因变量本身就只能取两个可能值，但此类特异案例仍然有可能影响回归估计。 
对于其他模型，如泊松模型，高度异常的因变量取值更容易出现。因此，对特异 
值的探测在 GLM 中同样重要。很多用于 0 LS 回归的诊断技术经过调整即可 



现代稳 健回 归方法 


用于 GLM ， 其中用于探测特异观察案例的那些技术都很有效。 


广义线性模型的残差 (Residuals From the GLM) 


广义线性模型的残差有好几种定义方式。其中一些，包括回应残差 （ re ¬ 
sponse residual ) ，即观察值: y 与其预测值之差: y : — fir ， 偏差残差 （deviance re ¬ 
sidual ) ， 从模型偏差的案例成分 （ case-wise components ) 衍生而来;工作残差 
(working residual ) ，加权最小二乘法最少一次迭代时的残差。另外还有学生化 
残差的类似物 (approximations of studentized residual )。 本书最关心的是皮尔 
森残差 (Pearson residual ), 因为它们在很多稳健 GLM 模型中扮演着核心角色。 
皮尔森残差就是经由期望值标准差尺度化的回应 残差： 


^Pearson. 


yi 一 ! Jd 


[ 6 . 12 ] 


关于各类残差的相对优点的更多细节，可参看 Gill ， 2001。这些残差都有 
各自的用途，但都难以同时适用于所有目标。 


帽子值与杠杆效应 (Hat Values and Leverage) 


和 OLS 回归一样， GLM 模型中的杠杆效应也可以通过帽子值心进行衡 
量，它们来自于迭代过程中最后一次 IWLS 估计。不过，和在线性回归中不同， 
GLM 模型中的帽子值同时取决于 y 值和 x 值。遵照普雷吉本的观点 （ Piregi - 
bon ， 1981)，帽子矩阵是这样定 义的： 

H = W in XiX T WX ^ X T W in [6.13] 

其中 W 为来自 IWLS 拟合最后一次迭代的权数矩阵。这一帽子矩阵因为 X 被 
替换为而不同于一般形式的 H (方程 3. 7)。如此处理使得 y 的方差可以 
有所变化，也正因如此，帽子值取决于： y 和 X 二者（参见 McCullagh and 
Nelder , 1989:405)。 

权势的评估 (Assessing Influence) 

和在线性模型中一样， DFBETA 和库氏距离在探测广义线性模型 （ GLM ) 
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中的权势值上大有用处。 DFBETA 是在比较移除某个观察案例前后回归系数 
的差异的基础上计算出来的， A ; = Uj ㈠ ， i = l ， …，々。类似于库氏距离 
的权势测量指标在 GLM 中同样可得： 


D t = 


X 




㈣ + 1) 1-h 


[6. U] 


其中 $ 是模型离散度估计值，而々为模型中除截距以外其他待估参数的个数 
(见 Fox ，2002) 


稳健广义线性模型 

GLM 模型的稳健估计方法的发展远远落后于线性模型的稳健估计。虽然 
有几个早期的尝试试图使 logistic 回归更加稳健(如 Pregibon ， 1981； Copas , 
1988； Carroll and Pederson , 1993; Bianco and Yohai ，1996) ，但对于其他 GLM 
模型的拓展仍然很少被考虑。即使在今天，也只有少数几款统计软件有估计 
稳健 GLM 模型的程序，而且即使有，通常也仅限于 logit 模型和泊松模型。 


GLM 模型的 M 估计 (M_estimation for GLMs) 


和线性模型一样， GLM 模型中使用最广泛的稳健方法在某种形式上也是 
基于 M 估计。与线性回归的早期 M 估计一样， GLM 模型的 M 估计的早期尝 
试同样面临影响函数无界这一问题(见 Stefanski ， Carroll , and Ruppert ，1986； 
Kunsch ， Stefanski , and Carroll , 1989)。 通常，得到的估计量也不可取，因为它 
们具有 Fisher 不一致性 (Fisher inconsistent ) 。[ 25 ]不过近年来，已经发展出一些 
基于拟似然估计的一致性有限影响方法 （consistent bounded influence meth ¬ 
ods ) 0 其中之一由康冬尼和罗切蒂提出 （Cantoni and Ronchetti ，2001) 。[ 26 ] 

康冬尼和罗切蒂的估计量由对 Preisser 和 Qaqish 的方程 （1999) 的拟似然 
广义估计推演 而来： 


§ 4 Q ( 如… )= § 今 (-"3 ) 〆 = ° [S _ 15] 
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其中〆= ^ 和 Q(y; %)为拟似然函数。它的解是由下列得分函数确定的 
M 估 计量： 

;涔）=(:(:《'.)": [6.16] 

不过，这一估计量难以用于稳健回归，因为它的影响与平成比例，因而没有界限。 

康冬尼和罗切蒂遵照马娄斯的 GM 回归估计的逻辑对方程 6. 16进行了改 
进。还记得一般 M 估计量是如下方程 的解： 

n 

5)= 0 [6.17] 

t=i 

或者，对于广义线性模型这一具体 情况： 

n 

2少 (W ^=0 [6.18] 

i = l 

其中少提供了观察案例的权数。和线性模型的 MM 估计相似，如果该函数为 
奇函数且有界，即意味着〆 •） 关于0对称，那么该估计量的崩溃点就等 
于0.5。康冬尼和罗切蒂是通过求解下面的方程达到这一 点的： 

平(: V ; //)= v ( y ; — aX[D [6. 19] 

其中： 

ai^= y ";) 如 [6_ 20] 

^ i —1 

而从和斯为同时考虑了相应案例的残差及帽子值的权数函数。对 Huber 函数 
的改造和使用保证了所获权数对特异 > 值具有稳 健性： 

切 (yi ; = 少 （q >^ 1 / 2 (^ ) [ 6 . 21 ] 

仿照马娄斯提供的线性模型 GM 估计量，叫 U .) 的一个可能选择是( X ,)- 

71^。不过，我们已经看到，这会导致过低的崩溃点，因此这里使用的是稳健 
距离的倒数(请参见第4章关于稳健距离的讨论)。最终的结果是一个有效率的 
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估计量，具有有界影响，并且服从渐近正态分布。更重要的是，已有研究显示， 
当数据被污染时，从这种模型作出的推论比从一般 GLM 模型作出的推论要可 
靠得多（参见 Cantoni and Ronchetti , 2001)。 

例 6. 1: 预测 2001 年是否投票给英国工党的 Logistic 模型 


这一例子使用的数据来自于 1997—2001 年英国选举跟踪研究 （British 
Election Panel Study )( Heath , Jowell and Curtice , 2002)。 我们只关注那些参 
加了 2001年最后一轮调査的受访者。在清除缺失值后，最终分析样本的规模为 
M 21。 我们的分析目标是评估工党领袖托尼_布莱尔对受访者在2001年英国 
大选期间是否投票给工党的影响。因变量为投票给工党（编码为 1) 或其他党 
(编码为0)。对于布莱尔的评价采用的是一个5分李克特题目，询问受访者对 
布莱尔作为英国首相的表现的好坏评价(取值越高代表做得越好)。分析中控 
制了年龄、性别、教育水平(本科及以上学位，接受了一些高等教育 [some posts - 
econdary ]， 大学预科 [a level ]， 高中 [o level ] ，无），社会阶层(管理者/专业人员， 
常规非体力劳动者，自雇佣者，体力劳动 者）； 主观认知的社会经济地位的变化 
(五分量表，较高的数字表示受访者认为自己的个人社会经济地位在过去5年得 
到改善)。 [27] 对这一数据，我们同时拟合了常规 logistic 回归和稳健回归。 

首先来评估(各案例在）常规 logit 模型中的权势。正如我们在图 6. 1的 
Cook’s D 标号图中看到的，有好几个观察案例对回归平面的相对权势很高。不 
过，通过进一步的诊断检查，包括对每一个系数的 DFBETA , 的仔细检查，并未 
发现任何明显的问题。换句话说，尽管一些案例整体上有着异常高的权势，但 
它们似乎对所有系数都不存在严重影响，至少单个看来是这样。考虑到这些案 
例整体的权势较髙，我们仍然尝试了一下稳健回归，看它能否给出与常规 logis - 
tic 回归不同的结果。 

表 6 , 2 给出了两个回归的结果。尽管出现了一些相对权势较高的观察案 
例，但常规 logistic 回归的表现仍然很好。事实上，这两个模型的主要结论极其 
相似^~ ^以认 为对于布莱尔的评价深刻影响了受访者是否投票给工党。尽 
管对于布莱尔的评价的系数在稳健 logistic 回归中稍微大些 （1. 205比 1. 127)， 



现代稳健回归方法 


211 


0. 004 


0. 002 


0. 000 


0 200 400 600 800 1000 1200 1400 

指数 

图 6. 1 预测 2001 年是否投票给了英国工党的 Logistic 模型的 Cook’s D 标号图 


表 6 . 2 预测 2001 年是否投票给英国工党的 Logistk 模型 
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最大似然估计 logit 模型 稳健 logit 模型 
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年龄 

— 0. 003 
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但这两个系数之间的差异在统计上并不显著。因此，对于这一数据，我们应该 
优先选择常规 logistic 回归，因为它比稳健回归简单。这个例子非常典型地说 
明了特异观察案例很难对 logistic 回归平面产生严重的影响，因为因变量只能 
取两个值。不过，下面我们将看到，特异案例更容易对泊松回归产生严重影响。 

例 6. 2:对雇北克居民的自愿性组织成员资格进行解释的稳健泊松回归 


这个例子使用的数据来自2000年加拿大平等、安全及社区调查 (Canadian 
Equality , Security , and Community survey of 2000) 0 尽管该数据包括来自加 
拿大不同地区的受访者的信息，但这里仅将来自魁北克的受访者纳人分析 u = 
949)。因变量为受访者参加的自愿性组织的数量。自变量包括性别(妇女作为 
参照组），出生在加拿大(参照组为“非出生在加拿大”），在家使用的语言(分为英 
语、法语及其他，法语被编码为参照组）。由于因变量为计数变量(且服从泊松 
分布），所以这里使用了泊松回归。我们既拟合了使用最大似然估计的常规广 
义线性模型，也拟合了使用拟似然估计的稳健 GLM 模型。在讨论结果之前，我 
们先来看 OLS 回归的诊断图。 

尽管我们进行了大量的诊断，但这里只报告了那些被发现存在潜在问题的案 
例。图 6. 2给出了“出生在加拿大”这一变量的库氏距离及 DEBElAf 的标号图。从 
库氏距离来看，大概有10个观察案例对回归的影响很大，其中两个尤其存在问题 
(案例770和3773)。对于 DFBEH 的分析表明，这两个案例对于“出生在加拿 
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图 6.2 对魁北克居民的志愿性组织参与度进行解释的泊松模型的诊断图 
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大”这一变量的效果的影响非常大，尽管从标号图中可以看到它们的影响方向相反。 

表 6. 3给出了来自常规泊松回归和稳健泊松回归的结果情况。可以清楚地 
看到，在常规 GLM 模型中，是否出生在加拿大这一变量的系数受到了与数据主 
体模式不符的特异观察案例的影响。稳健回归模型中这一变量的系数达到常 
规 GLM 模型中的10倍。作用(系数)上的这种差异将导致非常不同的实际解 
释。如果是基于常规 GLM 模型，我们将得出结论认 为:在 控制其他变量的情况 
下，出生在加拿大的人与出生在其他地方的人在志愿性组织的参与上不存在差 
异（，°° 27 = 1. 03; p = 0. 71) 0 相反，稳健回归告诉我们，平均而言，在其他变量 
固定不变的情况下，出生在加拿大的人参与的组织数要比出生在其他地方的人 
多30% O 0 . 258 = 1. 29； p = 0. 0035) 0 


表 6. 3对志愿性组织成员资格进行解释的泊松回归模型 
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0. 072 

L 03 
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0. 088 
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语言 







英语 

0.357 

0. 061 

1. 43 

0.537 

0.068 

1. 71 

其他 

一 0. 014 

0. 094 

0.98 

0.079 

0.112 

1. 08 

法语 
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1. 00 
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L 00 

71 

949 
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本章的两个例题都大有教益，原因 有二: 第一，泊松回归的例子清楚地表明 
GLM 的估计能够被特异观察案例严重影响。基于常规 GLM 模型的结论与基 
于稳健 GLM 模型的结论大不相同。因此在这个例子里,报告稳健 GLM 模型结 
果更合理。第二， logistic 回归例子显示，即使存在大量权势很高的特异案例，稳 
健 GLM 模型的实际结论也并不一定有别于常规 GLM 模型所得出的结论。因 
为此时的因变量只能取两个值——因此残差通常不会特别大——对 logistic 回 
归来说，通常总是这样。在这种情况下，常规 GLM 模型因为比稳健 GLM 模型 
简洁而更受欢迎。但是，作为一种诊断工具， GLM 模型仍然值得探测。 





第 7 章 I 结论 


iitfiifirii 'MMMUfijfWfniri' rn . "i it i.nn-.. ■ Tirriwi 


iiftiii n I, I 'naaiTEF 

释 




本书特别强调探测和恰当处理回归分析中特异案例的重要性。书中的经 
验示例表明 :如果 此类案例未被察觉，它们将严重扭曲回归估计。书中还提供 
了一些证据表明，垂直异常值，更一般地讲，重尾分布将降低回归估计的精度。 
这些问题同时适用于采用 OLS 估计以及更为一般的 GLM 估计所拟合的模型， 
这进一步突出了回归诊断的重要性。在本书中，我们还对一些用来探测垂直异 
常值、杠杆点，以及权势值的传统方法进行了介绍。通过组合起来使用，这些方 
法在识别经验例子中的问题观察案例时非常有效。 

发现问题案例以后，有几种处理方式可供研究者考虑。最简单的“处理”就 
是直接将这些讨厌的案例从分析中移除。如果有很好的理由这样做，比如某个 
案例被错误编码或者已知由于某种原因而非常独特，那么移除是很好的策略。 
然而，有时特异案例反映的是模型无法解释的系统性问题。这一点非常重要， 
因为它意味着特异案例并非总是等同于“坏”的数据。事实上，特异值很可能是 
数据中最具吸引力的部分。如果出现的异常观察案例很多，我们可以通过向模 
型添加新的因素来应对这种差异，这些因素可以是新的变量，也可以是既有变 
量之间的交互项。如果没有完全合理的理由支持我们对于特异案例的移除或 
者模型设置的改变，那么稳健回归技术就是合适的选择。 

一方面，稳健回归的策略并非显著地区别于移除异常案例。两种策略的目 
标都是为数据的主体部分寻找拟合最优的模型。关于这一点，有人可能会批评 
两者都会导致数据截除 ( truncation ) 偏差。换句话说，当我们尚不清楚这些异常 
案例是否真的是“被污染”数据时，将其移除或者降低其权重，都会使我们的回 
归估计有偏。我并不认同这一说法。使用统计模型是为了描述数据的一般模 



式，目的应该是从数据中讲述最具可能性的“故事”。因此，如果我们谈论的仅 
仅是由于一个或几个异常案例造成的 y 和工的关系，不管其在统计上显著与 
否，都是不合理的。这将是一个误导性的故事。相反，我们应当更加关注那些 
符合数据主体部分，而非少数特选案例的模式。当然，这并不表示我们可以不 
考虑特定观察案例异常的原因，就机械地报告稳健回归结果。事实上，我主张 
将这些方法主要作为诊断工具来使用，只有当我们确实无法解释这种异常性 
时，才靠它们来决定最终模型。 

本书讨论了许多不同类型的稳健回归，尽管其中多数早期方法已经相当过 
时。介绍如此多的方法之所以必要，是因为新近方法都建立在早期方法的基础 
之上。考虑到我们的主要目标是克服特异案例对回归估计的影响，因此，应当 
选择那些崩溃点高且影响有限的估计量。许多早期的稳健回归方法，如 LMS ， 
LTS ， LTM 以及士估计，都符合这些标准。但这些方法在高斯一马科夫假定下 
效率很低。如果分析的目的在于从样本数据推论到作为其来源的更大总体，那 
我们还需要有效率的估计。基于 M 估计的稳健回归模型就符合这一标准。但 
是，原始的 M 估计并不具备很强的抗扰性。它们的崩溃点是0,这意味着仅仅 
一个(特异)观察案例就能严重影响其估计效果。 

幸好，广义的 M 估计将高抗扰性和高效率结合了起来。这些估计量是这样 
达到该属性 的:首 先通过具有高抗扰性的模型(如 LMS , LTS ， LTM 或 S —估 
计)找到残差和/或其尺度的最初估计，然后将这些信息用于 M 估计后续阶段以 
使残差最小化。最重要的两个估计量是——至少在稳健回归被用于作出结论 

的最终模型时- 寇克里和赫特曼斯伯格 （Coakley and Hettmansperger ， 

1993) 的 GM 估计量，即我们所知道的一步史威普估计量和由约哈依 ( Yohai ， 
1987) 最先提出的 MM 估计量。前者虽然能最佳地处理杠杆点，但是它们在小 
样本中非常缺乏效率。相反，后者在多数条件下都表现得相当出色。不过，正 
如第4章所示，早期“抗扰性”有余但缺乏效率的估计量在稳健回归用作诊断工 
具时也能够起到重要的作用。 

尽管崩溃点高的估计量具有明显的吸引力，但在使用时也要非常小心 。一 
项针对这些技术的批评是，标准诊断方法在探测曲度或非线性 ( curvature ) 方面 
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存在问题 （ Cook，Hawkins and Weisberg , 1992； McKean , Sheather and Hett - 
mansperger ，1993)。 韦尔考克斯 ( Wilcox ，2005) 建议在使用高崩溃点的方法 
时，应该配合使用其他曲度探测效果更好的方法以对稳健回归进行补充。在这 
方面，非参数回归和广义可加模型 (generalized additive model , GAM ) 将会很有 
帮助。 GAM 不在本书范围之内，但是我建议读者看哈斯蒂与提布希拉尼的著 
作 (Hastie and Tibshirani , 1990) ，里面有关于这些模型的详尽讨论，福克斯也 
有好的人门介绍 ( Fox ，2000 a ，2000 b )。 

我希望本书已清楚阐明我们不应盲目使用任何一种方法。除非数据非常 
好(换言之，残差服从正态并且没有特异值），由于数据形制不同，不同回归技术 
会给出截然不同的答案。明智的做法是在数据分析的准备阶段，就使用稳健回 
归方法和 OLS 及相关的诊断方法。将这些方法得出的系数简单对比，往往就能 
得知 OLS 回归的有效性。如果估计结果迥异，用稳健回归残差相对于 OLS 回 
归残差绘制而成的 RR 图，能够显示出是哪些观察案例引发了差异。将这些诊 
断方法与传统方法，如库氏距离和 DFBETA 等相结合，将会很有帮助。最后, 
OLS 回归的相对效率和简易性表明，如果它确实能为数据中的模式提供相当好 
的刻画，那么选择使用它才是明智的选择。这些原则同样适用于(常规 ) GLM 
回归和对应的更稳健的替代方法。 



附录 I 稳健回归的软件选择 


本书呈现的所有统计分析都是用 R 软件 （R Development Core Team , 
2006) 完成的，它执行的是 S 语言。除了卓越的功能性和灵活性之外， R 软件也 
因其免费可得而具有很强的吸引力。你可以在 http ：// cran , r - project , org 下载 
R 软件的各种操作系统的版本。除了基本 R 软件配有的标准组件(或数据包) 
和推荐组件外，它还有很多附加数据包(在 S 语言中称为“库”）,这些也是免费 
的。通过快捷的互联网，我们能方便地获取并在 R 软件内安装这些组件。 

尽管本书使用的很多方法都可以在若干数据包中找到，但下面列出的这些 
非常有用。 “ MASS ” 包 (Venables and Ripley , 2002) 包括 M 估计、 S 估计及 MM 
估计函数。 “ robustbase ” 包 (Maronna et al : ， 2006) 拥有各种不同稳健回归方法 
的函数——包括 MM 估计， LTS 估计，以及稳健广义线性模型——和基于稳健 
距离基础上的一些稳健诊断图。在其他数据包中, “ car ” 包 ( Fox ，2002) 包括线 
性模型和广义线性模型的传统诊断函数。 “ boot ” 包 （Davidson and Hinkley ， 
1997,但由 Angelo Canty 撰写)提供了出色的一般自助函数，它们被用来产生前 
面报告的稳健回归自助标准误。 “ quantreg ” 包 ( Koenker ，2005) 包含用于拟合 
LAV 回归的函数。最后，由韦尔考克斯 ( Wilcox , 2005) 编写的免费 R 代码囊括 
了许多有用的稳健程序 (robust routines )， 包括本书提到的 GM 估计量。本书 
全部案例所用数据和 R 代码都可通过本书的网址下载: WWW. sagepub . com / 
andersendata 0 

上面讨论的所有数据包在 SPlus 中也都能找到。 SPlus 中最全面而丰富的 
稳健回归数据包是 “robust” 库，它可以用来拟合线性模型的 M 估计、 MM 估计 
以及其他稳健估计。它同样可以用来拟合各种稳健的 GLM 模型，包括 Kunsch 
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等人 (1989) 的模型。 “robust” 包对 R 软件同样可用，但不同于其他上面提及的 
R 包，使用它要向 InsightfuKSPlus 的制造商)的支付许可费。 

SAS 和 Stata 也有针对稳健回归的良好功能，尤其是各种 M 估计量和 L 估 
计量。 SAS 的 PROGRESS 程序拥有进行 LMS 和 LTS 回归的程序，并且 
ROBUSTREG 程序(在第9版中最先出现)能够实现常用稳健回归技术的绝大 
多数，包括 M 估计， LTS ， S 估计和 MM 估计。在 Stata 中， rr 叹命令能够实现 
基于 M 估计的各种稳健回归，包括 MM 估计。而 qreg 命令能够用于 LAD 回 
归和 LAV 回归。自助标准误在 Stata 中则可以通过 bsreg 函数轻松计算得到。 
目前，稳健 GLM 回归在 SAS 和 Stata 中都还无法实现。 

Gauss 软件也提供了各种稳健回归选择，包括 LAD (和分位回归，更概括地 
说)，以及各种类型的 M 估计。在拟合稳健回归时，程序会自动提供自助标准 
误。尽管在稳健回归性能的扩展方面较为欠缺， LIMDEP 软件同样可以用来拟 
合 LAD ， LAV 回归，以及一些 M 估计，并为这些估计提供自助标准误。任何一 
种稳健回归程序——不论是用于线性模型还是 GLM 模型——在 SPSS 中都不 
存在。 
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注释 


[1] 通常是用 < 而非 BDP 来表示崩溃点。这里我特意不使用 <，以避免它与回归模型中的误差项 
相混淆，后者与崩溃点无关。 

[2] 尽管关于崩溃点的讨论经常使用偏差 (fob) 的概念，但这里使用影响 U/Aca) 是为了避免与此 
前已经讨论过的偏差的一般统计学意义相混淆。如果影响很大的特异值并不是错误编码的结 
果，那么不管特异值对估计的影响多大,一个估计量仍然可以是无偏的——也就是说，重复随机 
抽样产生的该估计量的平均值将等于总体的参数。不过，这并不意味着该估计量是这个数据的 
一个好描述。 

[3] 如果估计量满足这一条件，即被认为达到了 CramerRao 下限(具体细节见 Cramer, 1946)。 

[4] 比克尔和莱曼 (Bickel and Lehmann, 1975) 还建议了第5个条件假定两个随机变量X和 Y。 如 
果X随机地大于 Y —也就是说，对于任意 z 值， F x (x)<F y (x) 一那么作为位置测度，必须 
满足 队 x )> dm 。 

[5] 尽管这是最常见的对截尾均值的定义，也曾有人提出过略有差异的估计量(见 Reed, 1998； Kim, 
1992 )。 

[6] 休伯 (Huber，2004) 进一步指出,截尾均值的影响函数即使在剪除不对称时也能求导出来。 

[7] 离散程度的度量是一种特殊的尺度测度，当X和 Y 都是对称分布，而 b | 的随机分布大于 k | 的 
随机分布时， r(X)> r(Y) (Kickel and Lehman, 1976). 

[8] MAD 有时被错误地用来指称不太稳健的“相对均值的中位离差”。离均中位离差用得很少，因为 
当使用它的条件单峰对称分布一满足时，标准差有用得多。 

[ 9 ] 从第6章可以看到，在广义线性模型中并不是这种情况。 

[10] 不过，在样本规模很大时，这一分界线难以确认任何观察案例，不管它们是否值得注意 （Fox 
1991)。 

[11] 福克斯的权势图通过使用 R 组件包 (car package for R) 中的 influence, plot 功能很容易就能画出 
来(更具体的内容请看 Fox， 2002：198). 

[12] 不要把偏回归图混淆为相似的偏残差图。后者在评估权势上没那么有效，但在区分单调和非单 
调的非线性上更胜一筹。关于偏回归图和偏残差图的相对优劣的更多内容，可以看福克斯的作 
品 ( Fox ， 1997)。 

[13] LAV 其他的名字还有最小绝对离差 （LAD) 回归和最小绝对误差和 （MSAE) 回归 （Birkes and 
Dodge, 1993)。 

[14] 因为使用有限而没有在本书中讨论的相关方法包括最小截尾中位数估计量 (least-trimmed medi- 
an estimators) 和最小截尾差异估计量 （least-trimmed difference estimator) „这两种估计量的崩 
溃点 BDP = 0.5 9 但它们的相对效率小于67%。更多内容，可以看克鲁克斯或斯特龙伯格的作 
品 （Croux et al. ，1994 ； Stromberg et al. » 2000)。 

[15] 这些估计量有时也被叫做截尾均值估计量 (trimmed-mean estimator) 0 它们也能被调整从而具 
有有限影响函数(见 Dejongh, De Wet, and Welsh 1988 )。 

[16] 不要将 LMS 估计量混淆为西格尔 (Siegel, 1982) 的重复中位数 (RM)。 尽管很早以前就被当作 
稳健估计量，但估计量存在严重不足，它在髙维问题下不具仿射回归同变性 （not being af- 
fin«egression equivariant) e 也就是说，当自变量被重新尺度化或线性组合时，系数估计不能如 
预期的那样表现。由于这一限制，本文将不再进一步讨论。 
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[17] 1RLS 也被称为迭代加权最小二乘法 (iterative weighted least squares, TWLS)„ 

[18] 这里假定 Huber 权数的微调常量为 c = 1. 345,双平方权数的为 4. 685。更多细节请看前面关 
于位置的 M 估计的讨论。 

[19] 像 LMS 估计 ( Rousseeuw ，1984) 和 RM 估计 ( Siegel ，1982) 等其他方法也曾被提出来用于初始 
估计。 

[20] 前面已经说过，稳健回归的标准误有时完全不同于更常使用的“稳健标准误 (robust standard er - 
rors )”， 后者常被用来校正未知的异方差模式。稳健标准误有很多熟知的名称，如 mite 标准 
误、 Eicker 标准误和 Hubei •标准误，和其他更为一般的“三明治估计量 （sandwich estimators ) ”一 
样》它们的运箅过程中并没有对 OLS 回归本身做任何改变。如果想了解更多有关稳健标准误的 
一般知识可以看 Whited 980). 关于几种稳健标准误的表现的出色讨论,可以看 Long and Ervin 
(2000)。 

[21] 有关使用似然法计算标准误的描述可以看 W es tem (1995) ，虽然简短但非常出每。 

[22] 如果样本规模太小，自助法也会出现 故障， Chemick (1999 : 151) 建议样本规模至少应该达到30。 
另外，自助法也可能因为相依数据 (dependent data ) ，或因为数据中存在相当比例的非随机缺失 
值而出现故障(见 Davidson and Hinkley ， 1997:37—54； Chemick , 1999； 102 一 105) 0 

[23] 如果样本规模很大，对线性模型采取自助法得到的标准误将和常规标准误接近。 

[24] 折刀法再抽样的方式不同于自助法，它不是从数据中回置性地抽取随机样本，而是通过随机地移 
除一个案例来进行再抽样(通常进行《次 )( 更多细节可以看 Davidson and Hinkley , 1997:113— 
118)。 

[25] —个 M 估计如果满足如下条件就被认为是条件性地 Fisher 一 致 （conditionally Fishei^consist- 
ent) : 

对于所有 和 r 都有 E #[*^ K ： y ， x ， 分 ） | 工]=(: y ， J ：， | x ) = 0 • 

如果 x 的分布独立 于心那 么线性模型和广义线性模型的最大似然估计量就属于条件性的 Fisher - 
~'致。 

[26] R 软件 robustbase 库中的 glmrob 函数用的就是这种方法。 

[27] 有关变量编码的详细信息参见 Aderson 和 Evans (2003)。 
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译名对照表 


absolute deviation 

绝对离差 

absolute values of residuals 

残差绝对值 

adjusted dependent variables 

调整因变量 

(rtrimmed mean 

«截尾均值 

asymptotic standard errors 

渐近标准误 

breakdown points(BDP) 

崩溃点 

best linear unbiased estimators (BLUE) 

最佳线性无偏估计量 

bias corrected(BC) confidence intervals 

误差修正置信区间 

bisquare weights 

双平方加权法 

bootstrapped standard errors 

自举标准误 

bounded influence function 

有界影响函数 

bounded normal scores 

有限正态得分 

GM-estimators 

广义 M 估计量 

iteratively reweigh ted least squares(IRl^) 

迭代再加权最小平方法 

M-estimators 

最大似然估计量 

canonical parameters 

标准参数 

conditional mean 

条件均值 

cook’s distances 

库氏距离 

deviance residuals 

偏差残差 

DFBETA 

回归系数差异量 

dispersion parameters 

离散参数 

best linear unbiased estimators (BLUE) 

最佳线性无偏估计量 

biwcight 

双权数 

breakdown point (BDP) 

崩溃点 

simulated data and 

仿真数据 

trimmed-mean 

截尾均值 

fixed-x bootstrapping 

固定 X 自举法 

generalized additive models (GAM) 

广义可加模型 

generalized linear models(GLMs) 

广义线性模型 

quasi-likelihood estimation 

拟似然估计 

Gini coefficient 

基尼系数 

generalized linear models 

广义线性模型 

huber estimates 

休伯估计 

infinitesimal perturbations 

极微小扰动 

influence 

权势 
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interquartile range(IQR) 

四分位差 

iteratively reweighted least squares(IRLS) 

迭代再加权最小二乘法 

jackknife resampling 

折刀法再抽样 

least absolute deviationsC LAD) regression 

最小绝对离差回归 

least absolute values(LAV) regression 

最小绝对值回归 

least absolute deviationsC LAD) regression 

最小绝对离差回归 

least absolute value(LAV) regression 

最小绝对值回归 

least median of squares(IJMS) regression 

最小二乘中位数回归 

least quartile difference( LQD) estimator 

最小四分位差估计量 

least trimmed squares(LTS) regression 

最小截尾二乘回归 

leverage 

杠杆效应 

mean squared error(MSE) 

均方误 

partial regression plots 

偏回归图 

pearson residuals 

皮尔森残差 

quadratic weight matrix 

二次权数矩阵 

quasi-likelihood estimation 

拟似然估计 

random-j ： bootstrapping 

随机 : t 自举法 

ranked residuals 

秩化残差 

relative efficiency 

相对效率 

repeated median(RM) 

重复中位数 

resampling 

再抽样 

resistance 

抗扰性/耐抗性 

RR-plots 

残差-残差图 

saturated models 

饱和模型 

scale equivariance 

尺度同变性 

studentized residuals 

学生化残差 

univariate outliers 

单变量特异值 

variance-covariance matrix 

方差-协方差矩阵 

vertical outliers 

垂直特异值 
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时也是该中心的主席。其论文主要关注分层、社会流动、统计方法及爱尔兰社会。最近 
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科学部硕士学位。现为香港科技大学社会科学部博士研究生。 


序 


在非实验社会科学研究中，回归分析是最常用的方法。在数据收集和录入以后，研 
究者无一例外地幵始尝试回归模型，对其定义的等式使用最小二乘法 ( OLS ) 进行估计。 
但 OLS 这 一强大 的工具却并不总是正确的。其一便是某类特殊形式的数据可能导致 
OLS 估计量的偏误。布林 (Breen) 教授在本书中讨论的数据形式包括删截 (censored) 数 
据、选择性样本 (sample-selected) 数据以及截断 (truncated) 数据。麻烦的是，该领域的术 
语运用并不统一，但相信本书的例子会帮助我们澄清这些概念。 

假设城市政策学者芭苗拉 • 布朗 （Barbara Brown) 希望研究这一 问题: 为何美国城市 
比其他城市在空气污染控制上花费更多？她以^表示其因变量污染控制开支，并以 A 
到 X 1C 表示各城市从预算到社会经济指标的十项解释变量，然后从标准城市年鉴中捜集 
数据。设想第一种情 况:在 其城市样本中，年度污染开支只在超过10万美元时才被记录 
在案，否则就是缺失值。即^是截断的。然而由于X并未被截断，而是包含所有城市的 
信息，因而构成删截样本。若布朗博士仍然使用 OLS 方法去估计模型，则结果如何呢？ 
为构成数据集，她只能使用 y>/io 万美元的个案，或者她可以对所有无记录的城市假设 
一 个小于10万美元的取值，如9万美元。无论怎样处理， OLS 都会提供有偏的参数 
估计。 

在上 面的例子中，数据的删截性 (censoring) 是由于因变量 Y 的截断 (truncation)。 而 
另一类更复杂的截断则是由于因变量 Y 的观测受另一变量 Z 影响。我们稍微改动空气 
污染的例子，以设想第二种情 况:假 设其他一切条件不变，但年鉴却只包含通过了空气清 
洁法令的城市。则变量 Z 在通过空气清洁法令时取值 1, 未通过则取值为 0 。 这即为选 
择性样本问题。布林教授考虑两个步骤以回应该问题••首先，某城市通过空气清洁法令 
的概率有 多大; 其次，在通过空气清洁法令的前提下，城市的污染开支为多少，那么该模 
型的参数要怎样估计呢，如果不是用 OLS 模型，那么是应该使用 Tobit 模型，还是赫克曼 
两步骤方法，还是最大似然估计方法呢。布林教授分别对这些估计方法的弱点和优点进 
行讨论，如以删截回归为例，他解释了最大似然 Tobit 估计一般来说优于赫克曼两步骤方 
法的原因。 



如布林教授所言，删截数据、选择性样本数据以及截断数据涉及“社会科学中的广泛 
议题”，而詹姆斯 • 托宾 ( JamesTobin )1958 年的论文引发了对这类议题的现代研究。因 
此我们的丛书非常需要这样一本关于删截数据的著作。其次，本书也是对丛书中更早的 
一本《事件史分析》的有效补充，后者主要处理另一种类型的删截数据。 

迈克尔 • 刘易斯 • 贝克 


第 1 章 I 概论 


请考虑如下问题。某次校级考试的及格成绩为40%，且所有参加考试的学 
生皆被授予证书，但只有及格的学生才会同时获知考试成绩。某位研究考试成 
绩之影响因素的社会学家抽出一部分学生样本，试图考察一系列解释变量诸如 
阶级、性别、父母教育程度对学生考试成绩的影响。但其关于学生考试成绩的 
信息来自学生自己的考试证书。因此若以％表示第丨位学生的考试成绩，则仅 
当％ > 39时，研究者才会得知学生的具体分数。否则(对于那些考试未及格的 
学生），研究者仅仅知道％ <39。因而研究者面临这样的问 题:如 何使用这种样 
本数据去估计考试成绩和解释变量之间的关系？有两种简单的办法。一是使 
用最小二乘法 ( OLS ) 对^进行所有解释变量的回归，该方法使用所有样本，并且 
对所有不及格的学生指定其^ = 39=11。这种方法有许多不妥之处，而其中最重 
要的是 OLS 的回归系数(应该告诉我们^和解释变量之间的关系)显然是总体 
真值的偏误估计。 

第二种解决办法是仅仅使用 y > 39的样本信息对 y 进行 OLS 回归。但这 
种方法不仅舍弃了 39的所有样本信息，而且由于其估计来源于一个并不是 
随机选择的子样本，因而不能很好地代表总体。此处的 OLS 估计同样是总体参 
数的偏误估计。虽然直观上并不是显而易见的，但更重要的是， OLS 回归系数 
甚至也不是^ > 39的部分总体的无偏误估计(第2章将作解释)。 

删截、选择性样本和截断数据 


为了解决这一问题(这也是本书要讨论的方法），我们需要采取两个步骤。 


高级回归分析 


首先是测量个体通过考试的概率。换言之，我们使用一系列相关的解释变量来 
拟合^大于39的概率，即 pr (^>39) 0 然后我们再使用一列相关变量，拟合通 
过者的期望成绩，即 £：(> I ^>39), 其中 E 代表期望值。在模型拟合中，这两个 
步骤可以分开进行，也可更有效率地共同进行。 

我们描述的此例在统计学文献中被称作删截样本问题。我们可以引入一 
些名称来更准确地说明其含义。若对于随机变量^有某数值 c ， 对于: y > c 的所 
有样本，我们知道 J 的确切数值，但对于其他样本，我们则仅仅知道则称 
为由下截断(左截断)。这正是我们开始时使用的例子所描述的情况。同时我 
们还有由上截断(右截断)，表示我们知道所有^小于某一域值 c 时3；的确切值， 
但对于所有其他样本，我们仅知道收入是一个典型的例子，对于样本中 
的高收人群体，我们可能仅仅知道其年收入是10万美元或以上。若存在两个或 
更多域值，则还有可能出现多截断的情况。如两个域值 d > c ， 若 A 则 
已知3；的具体 数值; 而当即为全部已知 信息; 而对 y 彡 d ， 我们 
例如高收入和低收入都被截断的例子。 

假设我们有一个截断: y 的样本，其中包含一系列变量 a ，6 = 1，… K ， 而 : v 
是^的函数。则 &( 简写为工)是以^为因变量的回归分析中的解释变量。若 
对所有样本我们都有^的观察值，则样本称作删截的。所以在左删截的样本 
里，我们既能获得所有 yr 的^值(其中 > 有确切值)，也可知道 y 小于或等于 c 
时的 x 值。相反，如果仅仅对那些: y 有确切值的样本，其: T 才被观察到，则该样本 
称作截断的。在这种情况下，对于 y 缺乏具体取值的样本，我们没有任何信息。 

现在我们对截断的随机变量，以及含有这类变量的整体样本数据进行区 
分。后者可以是一个删截样本，即使: y 落入其截断区域，我们也有样本的部分 
信息;它亦可是一个截断样本，当^落入截断区域时则我们不具备任何样本信 
息。此处我们使用了与赫克曼 ( Heckman ， 1992: 205) 相同的术语名称，但在文 
献中，这类术语的使用却并不 一致: 类似删截随机变量的说法相当常见，其中 c 
被称为“删截”(而不是截断)域值。但我认为名称反而是第二位的，读者理解删 
截数据和截断数据的不同才是重点。 

接下来我们将区分两大类删截样本，它们之间的区别在于决定因变量 y 是 
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否具有确切观察值的机制有所不同。在类似本书列举的第一个例子的一般删 
截问题里，> 的观察值的特性取决于其本身，例如大于域值 G 但在选择性样本 
问题中 （ Heckman ， 1979)， y 是否能被确切地观察，取决于另一变量 A 的值。 
我们可以举一个简单的例子，比如成人给予其孩子零花钱的数额 ( y )。 因为不 
是所有的成人都有孩子，所以在一个子样本中，我们不具备^的观察值。若以 
4 = 1表示第 f 位成人有孩子，反之^ = 0,则我们需要两个步骤来解决 问题: 
( a ) 拟合所有样本中成人有孩子的 概率; （ b ) 在有孩子的样本中，拟合: v 的期望 
值。因而选择性样本是删截问题的一种，但其因变量的截断是因为存在另一变 
量 z 。 仍以此为例，我们会有两列解释 变量: tts 用以解释成人是否有 孩子; 以及 
A 用以解释 y 的观察值。对于所有样本，我们都有加和 I 的所有信息，并不管 
其处于被选择范围之内（同样可以观察到: V )还是之外(没有 J 的观察值)。切和 
x 可能有一些重合变量，甚至有可能完全相同。删截数据与选择性样本数据的 
区别有时也被称作“外在选择” （ explicit ) 和“内在选择” （ incidental ) 
( Goldberger , 1981) 0 

现在我们有了三种类型的样 本:删 截样本、选择性样本和截断样本。表 1. 1总 
结了其中的区别。但这三类样本的结构基本相同，而且它们常被共同称作删截问 
题。用于处理这类问题的统计模型有时也会被总称为 Tobit 模型 （ Amemiya ， 
1984)，尽管严格而言， Tobit 模型仅是处理这类数据的特殊模型中的一种。 


表 1.1 删截样本、选择性样本及截断样本 


样本类型 

因变量 

自变量 

删 截样本 

: y 仅在其值满足某些条件，如 y C 
时，才可获知其确切取值。^是截断 
的随机变量 

无论^是否有确切取值，对于整 
个样本，自变量: T 都具有观测值 

选择性样本 

y 仅在另一随机变量 Z 满足某些条 
件，如^=1时，才具有观测值。： y 是 
截断的随机变量 

无论 y 是否有观测值，对于整个 
样本， a : 和 W 都可被观测 

截断样本 

J 仅在其值满足某些条件，如 : y > c 
时，才具有观测值。^是截断的随机 
变量 

仅当^具备观测值时，自变量才 
可被观测 
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两步模型 

上述删截数据、选择性样本数据以及截断数据的共同结构决定了它们要使 
用两步模型。在所有这些情况下，因变量: V 都只在一个子样本(我们称作选择 
的子样本)中具有观察值。 M 是否具备完全的观察值(或者说，某一个案是否落 
入选择的子样本)可以取决于: V ,本身(删截模型），也可取决于另一变量 4( 选择 
性样本模型)。而这二者与截断模型之间的区别 在于: 前者含有选择子样本和 
非选择子样本的信息，而后者则仅含有选择子样本的信息。因而，对于删截数 
据和选择性样本数据，我们既可拟合选择层(第 i 个个案进入选择的子样本的概 
率)，也可拟合结果层(选择的子样 本中％ 的期望值）;而对于截断数据,我们只 
能拟合后者。 

选择两步模型的另一个好处，是它将本章介绍的方法与连续变量的回归分 
析以及二分变量的分析模型(如 logit 和 probit 模型)联系了起来。选择层本质 
上是一个二分变量模型(被选择与未被选择），而结果层则类似于连续变量 J 对 
一 系列解释变量 x 的回归模型。因此，本章结合刘易斯 • 贝克 （ Lewis - Beck ， 
1980) 与阿肯 （ Achen ，1982) 关于回归模型的论述，以及奥尔德里奇和尼尔森 
(Aldrich & Nelson , 1984) 对离散型变量的分析方法的讨论来构建模型。 

另一部分相关文献则是处理时间数据或事件史模型的。在使用这些模型 
时，我们关注样本成员在移人另一区间之前，在某区间内花费的时间(例如从无 
业到工作），以及不同个体在不同时间点发生区间转换的风险。通常这类数据 
的观察都建立在一个固定的时间区间 T 内。有一些样本成员在这段时间内并 
未经历转换，因而我们仅仅知道其在原始区间内所花费的时间至少等于丁。这 
类个案即为删截的。相反，有些样本成员则在时间了内经历过转换，则我们会 
知道其在原始区间内花费的具体时间。这些则是非删截个案。因此，测量在离 
开某原始区间之前所花费时间的变量则是以： T 而由上截断的。这类似于我们 
在收人研究中发现的上截断，因而本章中所介绍的方法(需做微小改动)也可用 
于这类问题。在时间数据的相关文献中，这类方法被称作加速失效模型 ( Kalb - 
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fleisch &- Prentice , 1980)。它基本上是一种表示原始区间内停留时间的期望 
长度(或长度的对数形式）的删截回归模型。尽管删截个案与未删截个案之间 
的区别仍是重点，但现在时间数据的常用方法关注“风险率”（详细介绍见 
Allison , 1984)。这类模型在统计学中现已成为高度发展的领域，我们在此不再 
进行讨论，然而我们仍将在第5章讨论删截模型与加速失效模型之间的关系。 

社会科学中的删截、选择性样本以及截断问題 

为何我们关注删截、选择性样本及截断问题？最直观的原因是它们在社会 
科学中的普 遍性。 现代学科对删截数据的最早估计始于托宾的文章 ( Tobin ， 
1958), 文中介绍了后人所称的 Tobit 模型 EC 。使用735户的样本数据，托宾分 
析了持久消费品支出占总可支配收入之比例与两个解释变量之间的关系，包括 
户主年龄与流动资产占总可支配收入的比例。在他的样本中，有183户的因变 
量取值为0,因此因变量^以域值 c = 0而截断，从而构成删截样本。从此该模 
型就被社会科学的许多学科使用。例如在政治学中，迪根和怀特 （Deegan & 
White , 1976) 用其分析1973年休斯敦地方政府官员候选人用于电视广告的开 
销，其中40名候选人中的24名开销为零。又如在社会学中，沃顿和拉格 
(Walton & Ragin ，1990) 用其分析债务国公众示威的严重程度。在其56个国 
家样本中，有30个国家没有公众示威记录，其因变量取值为0。 

在删截回归方法使用的许多例子中，删截的域值都为0。这样的例子有家 
庭资产如公司股份的所有权、酒精消费量、耐用消费品的购买等。但同时也存 
在域值不为0的情况，例如完成全日制教育的年限(其域值为法定最小离校年 
龄)，有最低工资法的国家的收入情况等。然而并不能因为因变量有一个较高 
或较低的域值(或两个都有），使得至少一部分个案被聚类在一起，就可以认定 
删截回归模型成为正确的选择。在详细介绍该模型后，我们会继续讨论在什么 
时候删截回归模型才是适用的。 

选择性样本数据的例子大量存在于社会科学研究中。其被广泛运用的领 
域之一是评估研究，尤其是对劳动力市场项目的影响研究。其中项目参与并不 



是一个随机事件，因而参与行为的效果(如收入，或工作机会)研究不仅需要估 
计进入项目的几率，也需要估计进入项目后的结果。其详细介绍参见巴尔诺， 
凯恩和戈德堡的著作 (Barnow，Cain Goldberg, 1980)。 

学校效应的研究也是选择性样本问题经常出现的领域 (Coleman，Hoffer 
& Kilgore， 1982)。例如，如果我们关注就读于一类学校比之另一类学校的相 
对效应，则不仅需要研究入选某类学校的过程，还需要分析入选后就读于该类 
学校的影响。 

调查中的无应答也会产生选择性样本问题。如某问卷中关于性生活频率 
的问题遭遇了大量的无应答。若该无应答是随机的，则使用已应答的子样本来 
模型化性交频率的解释变量不会存在问题。但很显然无应答并不是这样纯粹 
随机的，这导致仅对回答者提供的信息进行 OLS 回归可能出现偏误估计。此处 
我们同样应该进行两步估计:首先是无应答或应答的过程，然后是在应答者中 
估计其性生活的期望频率。 

某些时候选择性样本问题和删截问题可能同时发生。例如对刑事司法系 
统的研究，若关注对有罪被告人所判处的监禁时间，则我们应关注其中的多阶 
段过程。首先，在被带入法庭的被告人中，仅有一部分被发现(或辩称) 有罪; 而 
在有罪的被告人中，仅有一部分会接受监禁。在第一阶段，我们可以使用选择 
性样本的方法去估计被判定有罪或宣告无罪的过程，而将第二阶段看作删截样 
本的例子，因为同样的自变量可以用于决定被告人是否被判监禁以及监禁的时 
间。因此我们可以对有罪认定的被告人的获刑时间拟合一个删截回归，但应对 
其做样本选择性偏误修正，因为有些人并不被认定有罪。整个刑事司法程序可 
以看作不仅是两个步骤的综合，而且是整体一系列阶段的综合(拘留、传讯、审 
判、判决)，其中每一阶段都在上一级样本中选择一个较小的子样本。因而理想 
状态应是整个过程被拟合为一系列选择性样本和删截数据的模型 （Hagan， 
1989; Hagan Parker, 1985; Peterson Hagan，1984) 0 

某些抽样会导致截断问题。如研究者并不总是从总体整体中抽取样本，而 
是直接在自己所感兴趣的那部分总体中进行抽样，如仅调查那些收入在贫困线 
以下的家庭。此时如果研究者对收人和教育之间的关系进行测量，则 OLS 回归 
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必然导致有偏的参数估计。即使研究和所感兴趣的仅仅是贫困家庭中的此项 
关系，其参数估计仍然有偏误 ( Berk , 1983:388)。两步骤模型(为删截数据所设 
计)并不能解决这类问题，因为关于贫困线以上的家庭我们没有任何信息，所以 
只能使用截断数据的分析技术。对找到工作前的无业期的研究同样面临此类 
问题。因为无业人群并不是总体的随机子集，因而仅根据无业人群的信息所做 
的参数估计很有可能出现偏误。 

理论基础 

接下来，我们假设社会科学研究者们希望对一个或多个解释变量（自变量) 
与某个因变量之间的关系进行总体参数估计，并假设这些估计使用总体的一个 
随机样本进行。 

本书所介绍的删截、选择性样本，以及截断数据的分析方法，如前文所述， 
包含两个步骤，并对两个步骤分别拟合模型。选择该方法的原因是显而易见 
的。作为一项标准统计结果，我们可以将随机变量 r 的期望值看作以下两项的 
乘积 之和: 落入某一分散区间的概率，以及 W 在该区间内的期望值。若以 
I m ( m = l ， 2,… M ) 表示各分散区间，则幻的期望 值为： 

E(V) = ^pr(v G I m )E(V \ V ^ 1m) [1. 1] 

m =1 

其中 pr ( t ; e U 表示 U 落在第 rn 号区间的概率 a 因而,随机变量的期望值可 
以表示为其条件期望 ( EiviveU ) 乘以概率 （ P r [ t ； e 乙])之和。等式 1. 1即 
为“期望的全概率法则”的简单形式 (Karlin & Taylor , 1975:8)。 

将该结论运用于删截问题，因为在一般回归中我们有： 

E( yi \ X ,) = [h 2] 

其中下标 i 表示样本中的第 i 个个案，而 X 和^皆为列向量组。 

若 y 在一常数 c 两端有两类不同的取值，则根据等式 1. 1的结果，我们可以 
将等式 1. 2的左侧 写作： 
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E(yi \ Xi) = pr(yi > c \ X^Eiyi \ > c, X；) 

+ pr(^<c I XdE { y z \ ^-< c , X ,) [1. 3] 

此时等式 1.1 中所指的区间由变量 7 自身决定 ： A 是区间（一⑺， G 而為 
是区间 G ：， +00)。 y 是否超过 c 的概率则被看作与 X 相关，而等式的期望值部 
分则不仅取决于 X ，也取决于 y 与 c 的大小关系。因为 y 被 c 分为两部分，所以 
y 小于或等于 c 的概率为1减去 y 大于 c 的概率。所以等式 1. 3可 写作： 

E(y t I X t ) = pr(y > c I X^Eiy, \ yi >c, X,) 

+ [ l - pr(^>c I X t -)] E (^ I X ) [1.4] 

若 y 以 c 为域值由下截断，则其观察值的期望 值为： 

E(y { I X,) = pr(^- > c I Xi)E(yi \ yi> c, X { ) 

+ [l — pr (： y , >c I X,)]Xc [1. 5] 

注意最后一项条件期望值在等式 1. 5 中被常数 c 替代了。这完全无伤大 
雅，因为若我们定义 z j — c 并将^作为因变量，则我们可以设 c = 0。虽然这 
会改变截距的原始估计值 a ， 使之变为 a — c ， 但这并不会改变其他的斜率估计 
值。现在看来，我们仅需估计等式的两个部分，正如之前讨论的那样，估计选择 
(某一个案不被删截的概率)和结果(未删截个案的条件期望)两个步骤。而这 
两项都被看作是同一系列变量 X 的函数。 

事实上，该模型也并不必要如此严格。选择和结果步骤并不要求是同一列 
变量的函数。回到等式 1. 1，其分散区间也不必以随机变量^来定义，我们亦可 
用另一变量 z 来定义其区间。类似的，选择过程也可能比模型所显示的更复杂。 
前面我们已经提到了双重截断(同时具有上下限)的情况，同样，我们也可能有 
更复杂的选择性样本，如仅当两个标准被满足时 A 具有确切的观察值。如我们 
有两个随机变量 z 和 r ，则仅当 z , > 0且 n > 0时，我们能观察到％。此时模 
型为： 


E(y { ) = pr (zi >0 ， r { > 0)E(^ | 々 > 0 ， r { > 0) 
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为了方便表示，我们省去了模型两部分中的解释变量，但 r 、 ， z 都可以是不同 
解释变量的函数。如果 r 和 z 互不独立，则选择过程的拟合需要考虑二元概率 
分布。 

更基本的复杂性来自于两步骤的同步而非顺序发生。例如，我们希望研究 
与人们的收人相关的变量。在工作年龄的成人总体中抽取随机样本，则并非每 
个人都有工作，因而，因变量收入(或收人的某些转化形式)仅对样本的某些成 
员具有观察值。若我们进一步假设人们仅仅会从事那些工资在其接受程度的 
最低限(“保留性工资”)以上的工作，则选择过程(个人是否有工作)和结果过程 
(当个人有工作时，其工资是多少)并不是顺序发生的。相反，它们同时发生。 
只有当工作报酬高于个人的保留性工资时，我们才能观察到某人有工作。我们 
将在第5章讨论这类模型。尽管这类同时性使得模型的估计更复杂，但我们仍 
相信两步骤模型在处理这类问题时的优越性。 

本书内容 

在下一章我们将首先介绍删截样本的最简估计形式，即 Tobit 模型 ( Tobin ， 
1958)。我们将用较大篇幅解释与其相关的问题，如最大似然估计和参数解释。 
在第3章，我们会讨论基本的选择性样本数据模型以及截断回归模型。第4章 
通过最大似然估计法丰富删截模型和选择性样本模型，将本书介绍的方法与非 
连续因变量的其他回归方法如有序 probit(ordered probit ) 模型相联系。同时， 
我们会讲述如何将模型扩展为适合选择和结果顺序发生的案例。 

第5章是关于这些方法所面临的争议及困难，并在模型的现实运用和寻找 
替代方法方面提供指导。 



第 2 章 I 删截数据的 Tobit 模型 

菸 f : 綱褴;鮮鋼銳觸靈嫩微猶衲■顯 g 彌興郝;概 


处理删截数据的最简单模型是所谓 Tobit 模型 ( Tobin ，1958) ，它所处理的 
即为第1章所介绍的问题。我们使用托宾的模型运用的另一个例子来开始讨 
论。以 M 表示第 i 户家庭用于奢侈品的花费，其中第 i 户家庭来自于一个所有 
家庭的随机样本。以足表示一系列解释变量的值(如月收入、财富、家庭成员 
等）。我们需估计向量戸，它包含一系列总体回归参数，表示兄对奢侈品消费的 
影响。样本包括 N 户家庭，其中 iV 。 户家庭不消费任何奢侈品，而另 N ,(= N — 
No ) 户则消费某些奢侈品。 

删截的潜在变量 

_ Tobit 模型及其他类似模型共同认为存在一个潜在变量 〆 ，^是其现实观 
察值。在之前关于考试成绩的例子里，潜在变量为个体学生的真实考试成绩 
(从0到 100) ，但该潜在变量只有在域值被超过时才可被观测。真实考试分数 
可用，表示，而观测值(从39截断)则可用 y 表示。类似的，在本章的例子中， 
，表示家庭在奢侈品上的消费能力或消费倾向，但我们观测到的是家庭的实际 
消费值>它只在消费能力大于0时才会出现。所以尽管许多个案的观测值同 
样为0,但其潜在变量的取值可能不尽相同。模型的潜在变量形 式为： 

yl — + Ui [ 2 . 1 ] 


假设％是独立并且服从正态分布的误差项，且其均值为0,方差为常数 V 。重要 
的是，我们亦假设等式 2. 1是潜在变量与 X 之间的正确关系函数，并且 I 无测 
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量误差，也不存在任何遗漏变量。所有这些假设都非常重要，因而在使用 Tobit 
模型之前，我们应考虑数据是否满足这些假设。在 OLS 回归中，违反这些假设 
的后果是非常清楚的，但对本书讨论的 Tobit 模型和其他模型而言，这些后果尚 
不明确。然而(我们将在第5章详细讨论)我们却知道相比于 OLS 模型，这些模 
型在违反假设(如正态分布假设)时更加不稳健。但这并不说明此类模型过于 
脆弱而不宜使用:因为很明显 OLS 回归并不适用于这类数据(如示例所言）。坚 
持使用 OLS 回归，并期望它对于或者真实存在，抑或只是我们怀疑的问题显示 
出更强的稳健性，这于理不通。更重要的做法是检验这些假设是否被满足，并 
在可能的情况下转化我们的数据，以使之满足假设，或在研究设计及研究进行 
过程中最小化这类问题。 

观测变量与潜在变量之间的关系可以简单地 写作： 

yi = y: if yt >c 
c if y - < c 

其中 c 为删截的域值(在例子中 c = 0) 6 

若将我们的模型写为观测变量的7的形式，并令 c = 0, 则有： 

若 : yf > 0 ,则: y ; = X ■/? + Ui 
否则％ = 0 

第 1 章中的等式 L 5 表示某删截于 c 的变量取决于 X ,的期望值。在本例 
中，由于 c = 0 , 因而等式可以简 化为： 

E ( y { \ Xi ) = pr (^ > 0 I Xi ) E(yi \ 3 ;,- > 0 , X t ) [ 2 . 2] 

现在我们说明怎样使用两步骤方法去拟合该模型。 


两步骤模型 


选择 


由于乂 > 0 , 所以: 
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因此， 

ui >— [2_ 3] 

换言之，災 > 0的概率即为 w 超过 一 的概率。 由于叫 服从正态分布， 
则该概率实为某一正态分布的变量超过某值的概率。回忆 z 检验的程序，我们 
可以从标准正态曲线下的一块面积看出 :某一 均值为0,标准差为1的正态分布 
随机变量小于或等于 Z 的概率值。现在我们的例子稍有不同，因为我们试图得 
知叫超过< 的概率，其中< =- X ；/? Q 由于正态分布的对称性，随机变量超过 
z 的概率即等于其小于一^的概率 ，即： 

pr(ui >—X0) = pr(ui < X-j8) 

用 F (冗/?， /) 表示均值为 0 方差为 o 2 的正态分布随机变量小于或等于 

的概率，或简称其为 R ， 则： 

F, = a 2 ) = [ J^exp{~t 2 /2^)dt 

土 v2m 2 

该概率等于均值为 0 标准差为 a 的正态曲线中，从 一…到 尤/3所占的比例。 
从而 F , 等于 0( X0Ar ) ，或简写为取 

0 i = = — -^^exp (— t 2 / 2 ) dt [2.4] 

_io v 27r 

等式 2. 4 又被称为标准正态分布函数，它告诉我们标准化后的正态分布随 
机变量(均值为0,标准差为 1) 小于或等于 X ^/ a 的概率。为标准正态曲线下从 
一％ 到 X & Ax 所占的比例。 

无论是写作尺还是氣(我们会使用后者），此项概率都可使用 probit 模型 
来估计 (Aldrich & Nelson , 1984:48—49)。在 probit 模型中 ， cr 和0 并不被单 
独定义，模型估计的参数为/?/〃，而且为了方便，我们通常假设 a = 1( 见 Madda - 
la ， 1983:23)。 
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结果 

若不满足条件 2. 3,则对于％我们会观察到0值。因此我们只需在 y >0 的 
条件下估计>的条件期望值。即： 

E{y { | > 0, Xi ) = X^j3 E(ui \ u { > — X[j3) [2. 5a] 

由于仅当 a 满足条件时，才有^>0,所以在模型中我们不使用£(〜）(如同在普 
通 OLS 模型中所做的那样），而是使用条件期望值 £ U , 1 Ui >- X ：(3 ) 0 因为我们 
已经假设〃的非条件期望值为0,则其条件期望不为0。因此，事实上我们在回 
归式中加了额外的一项。现在的问题在于如何估计这一额外项。我们需要知 
道关于截断的，正态分布的随机变量的期望值。该统计结果在附录 A 中给予说 
明。由于 a 是正态分布的随机变量,且由一而下截断 ，则： 

E(u { I u { >—X-/3) = a 备 [2. 5b] 

免仍是对测量的标准正态函数，而+则是其对应的标准正态密度函 
数 ，即： 



\/2 ?r 


exp 


(- XW 
2(/ 


应注意区分，屯是概率，而表则是概率所对应的密度。等式 2. 5中出现 
的密度与分布函数之间的比值(表 M )， 被称为逆米尔斯比率，或风险率，常用 
A , 表亦 。 


Xf/? + £(wf I Ui > — X^) ~ + 

sPi 

=(Ai [ 2 _ 6 ] 

该等式的估计十分容易。从 probit 模型的选择步骤的结果，我们可以得到观测 
值5大于0的估计概率，这即为中。同样，我们可以得到相应的0的估计值(通 
过第 i 个个案 [ xy / a ] 的标准正态密度函数)。对于那些災大于0的个案，我们 
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用免和-的估计值来计算 I 的估计值，即逆米尔斯比率。接着就可以使用 
OLS 回归，通过拟合非零的^值和 X ,以及估计 A 值的关系来计算0和^的估 
计值。 


E( yi | % > 0, 足） = X^ + aXi [2. 7] 

也可用等式 2. 2来对模型进行估计，它将％的期望值看作％ > 0的概率与 
% >0时％之条件期望的乘积。即： 

Ei yi I X,) + [2. 8] 

L r 氣」 

为估计这一等式，我们同样从 probit 模型的结果中得到黾，即模型的第一部分 
的值。则 y 的条件期望可由等式 2. 5 a 得出。通过使用取和-的估计值（由 
probit 模型得来)，则我们可以将等式 2. 8简 化为： 

E(y t I X t ) - +af t [2. 9] 

它同样可以用 OLS 回归来拟合，但这次我们使用的是全部样本数据。 

)3 的估计值有时被称作赫克曼两步估计量 (Amemiya ， 1984) (Heckman ， 
1976, 1979)，尽管这一方法相对简单直接，并且易于使用，但同时也面临许多问 
题。如系数的标准误及 a 的估计值都是不准确的。我们将使用例子对其作进一 
步的说明。 


最大似然估计 


Tobit 模型使用最大似然估计解决这些问题。它不似一般 OLS 方法那样 
为人熟知，但它的重要性以及在统计和计量学中使用的广泛性(包括删截数据、 
选择性样本数据和截断数据）使得我们有必要对其基本原理进行解释 （见 
Aldrich & Nelson ， 1984:第3章$1^011，1993； Kmenta , 1971:174—182)。 

首先考虑含有一个自变量 ( x ) 和一个因变量 O ) 的回归模型。该回归的输 
出结果会向我们提供三个基本参数 :截距 《、回归系数 P 以及假设为正态分布且 
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相互独立的误差项的标准误 tr 。 使用最小二乘法可得到 a 和/?的估计值，同时在 
满足假设(同方差、残差独立性、残差零和性，以及 z / 和 x 不相关)的条件下， OLS 
估计量为最优线性无偏估计量 ( BLUE ) (见 Johnston , 1972 :第2章及第5章）， 
意为最小二乘估计量在所有的线性无偏估计量中是最有效(抽样方差最小)的。 

还有另外一种估计 a 、 0和 a 的方法，即最大似然估计法。其基本原 理是： 
若估计的一系列参数是总体的参数真值，则它们将最有可能产生观测到的样本 
数据(或严格而言，它们会最经常地产生观测到的样本数据)。对于随机变量 J 
的一系列 N 个样本观测值力、％、…洲，我们提 问:若 给定一列总体参数值，则 
其从总体中得出这些具体观测值的可能性多大？而最大似然估计则是尝试所有 
可能的总体参数值，直至发现某一列参数，其得出具体样本观测值的可能性最大。 
因而进行最大似然估计的第一步是写出观测到: y , 的某一具体模式的似然值。 

我们可用较直接的二项分布来解释其做法，并且我们将证明，这即是泛称 
的 pmbit 模型的由来。二项分布的随机变量仅有两个可能取值 J 和1，且其分 
布可用一个参数来表示，即其均值 TT 。7 T 等于该变量取值为1的概率，因而其取 
值为0的概率是1 一; T 。 所以该二项分布随机变量的概率分 布为： 

f(y) = 7^ (I — 7t) l ~ y 

它表示该随机变量取某一特殊值 (0 或 1) 的概率。若我们从此分布中抽取 N 个 
值为样本，则其联合概率分 布为： 

/(：yi ，％， … yN) 

它表示我们 N 个值的样本取某一特殊组合的0值和1值的概率。若样本个案 
之间互相独立，则联合概率可看作边缘概率的乘积 ，即： 


/(：yi)/(：y2 ) … /(^n) 


用特殊形式来代替/， 则: 


7t y ' - TT^d-Tr) 1- ^ 


高级回归分析 


后面的表达式即为似然函数。但为何该看似等同于样本联合概率分布的 
表达式被称作似然值呢？其原因 在于: 尽管两者写法相同，但联合概率分布中 
分布的参数为固定值 (7 T ) 而3/为变量，但在似然函数中两者的位置 相反: 观测值 
为固定值 ( J ) 而分布参数则为变量。一旦我们写出似然函数，则下一步是在给 
定样本观测值的情况下，找出使该函数最大化的参数值。现实情况中更方便使 
用的是似然函数的自然对数形式，称为对数似然值，常用 L 表示。对数似然值 
是似然值的单调变换，因为两个函数将在同一点取得最大值。在本例中，对数 
似然 值为： 


N 

L = [: yilog ?r+ (1 — 30log(l — 7T)] [2. 11] 

假设我们的样本含有2000个观测值，其中1472个取值1而剩下528个取 
值0。为了估计未知参数 ; r (在0和1之间），我们将各个可能的值代人等式 
2. 11。若首先猜测 ; r =0. 5,则对数似然函数的 值为： 

L = 1472 X log (0. 5) + 528 X log(l — 0. 5) =— 1386. 29 


表 2. 1是根据对; r 的不同猜测而计算的不同的 L 值，可以看出在 0. 7时函数 
值最大，而更精细的研究则会表明对数似然值在 tt 为 0. 736时最大。这即为参 
数 7 T 的最大似然估计。 


表 2.1 ； T 的不同估计下的对数似然函数值 


7 T 的估计值 

对数似然函数值 

0. 1 

—3445. 04 

0. 2 

一 2468. 91 

0. 3 

— 1960. 57 

0.4 

-1618. 50 

0. 5 

-1386. 29 

0. 6 

一 1235. 74 

0.7 

-1160. 72 

0.8 

-1178. 25 

0. 9 

-1370. 86 
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最大似然法并不仅限于估计参数 7 T ， 此时 7 T 表示样本数据中取值为1的观 
测值的比例。我们可以将 7 T 看作数据和参数的函数，假设对样本中的每一个 
我们都有相应的 A 值，并且义为连续变量。则& = /U )， /是某一函数。 
在 probit 分析中，我 们有： 


7ti = 少 （a + yxi) 

其中0表示标准正态分布函数，并假设 a = 1。 
将该表达式代入等式 2. 11，则对数似然 值为: 


L= 2 baog(^) + (1 - ^)log(l - ^)] [2. 12] 

i 二 1 

其中办 = 0 (a + 7 Xi ) 0 这就是 probit 模型中的对数似然函数 （Aldrich & 
Nelson , 1984:51)。最大化该项则可得到参数 a 和7的最大似然估计。当然， 
此时我们用于寻找 r 的最大似然估计的简单方法已不再适合，最大化对数似然 
函数需要更为复杂的办法(见 Eliason ， 1993:第3章)。 

现在假设^不是分类变量或离散变量，而是一个连续变量，我们以此作为 
第二个例子，仍遵循最大似然估计的基本程序。我们同样寻找使似然函数最 
大的总体参数值，并在写出似然函数前弄清样本数据的联合概率分布。而其 
与上一个例子的重要区别在于:对于分类变量或离散变量，我们可用其具体 
值计算联合概率(换言之，这类随机变量的概率分布函数已有定义），但对于 
连续变量而言，事实上并非如此。如同对于二分变量，我们可以找出^取值为 
0或^取值为1的概率;但对于连续变量，我们并不能指出^取某一特定值时 
的概率。因此，在似然值中我们不能使用概率分布函数。相反，我们应该用 
密度函数，宽泛而言，它对连续变量的意义和概率分布函数对离散变量的意 
义相同 [4] 。 

假设 M 的总体围绕其均值呈正态分布，则其密度函数为： 


/(%)= 



exp 


— 一 At)/g] 2 


因此似然函数是所有 M 的密度的乘积。取其对数形式，则 有: 
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L = 卖 1 。“^^)—忐 ( 3 " 1 )2 [ 2 . 13a ] 

同样的，最大化此函数即可得到//和 a 的估计值。若我们假设 P 在不同的样本 
个体间变化，设 A = a +供,， 且将其代入对数似然函数 ，则： 

L = 2 log( ) _ 2?^ 1 ' _ (a+j3xi)y [2.13b] 

最大化该表达式则可得到 a 、 /?和 cr 的最大似然估计值 (MLE )。 

最大似然估计值有很多很好的属性，但它们只在样本量很大(满足非极端 
正则条件)时才存在。在统计术语中，最大似然估计值有较好的渐进性质。 
这与 OLS 统计量略微有一些不同（当然是在满足 OLS 回归条件，如方差、独 
立误差、零和误差、解释变项与误差项零相关的情况下）。所以， OLS 估计 
量是无偏的，意即 OLS 估计的参数的期望值等于总体的参数真值，也 就是： 

Eid) =6 


其中# 是 OLS 的参数估计值。而最大似然估计量则并不满足无偏性，只具备一 
致性。这意味着当样本量增大时，最大似然估计量会越来越趋近于参数的总体 
真值 ( Kmenta ， 1971:133—134, 181—182)。这并不是说该估计量是渐进无偏 
估计"一意即在极限情况下，当样本量非常大时，参数估计量的期望值等于其 
真值最大似然估计量总是具备一致性，但它们也可能是渐进有偏的。但是 
如同伊莱亚森 ( Eliason ，1993:20) 所指出的，在所有实际应用中，以及在本书所 
讨论的所有模型中，最大似然估计量实际上都是渐进无偏的。 

OLS 估计量的有效性表示使用最小二乘法得到的参数估计的方差总是小 
于其他线性无偏估计量的方差。而最大似然估计量则是渐进有效的，即只有在 
样本量很大时，其估计量的有效性特质才得以成立。最后，如果我们假设误差 
项服从总体正态分布，则 OLS 估计系数也服从同样的正态分布，因而我们可以 
计算其置信区间，并进行显著性的标准统计检验。最大似然估计则是渐进正态 
分布的，我们再一次 强调: 它意味着大样本的最大似然估计服从正态分布，但对 
于小样本估计而言，事实并不一定如此。最大似然估计量的方差可以很容易地 



應截、选择性样本及截断数据的回归樓型 


从逆“信息矩阵”的对角线中获得。信息矩阵是对数似然函数对参数的第二部 
分偏导矩阵之期望值的负数(参见 Aldrich 8^ Nelson ， 1984:54; Eliason , 1994： 
20; Kmenta , 1971:182)， 然而它们是参数的渐进方差，仅在样本量很大时才 
使用。 

最大似然估计是一种普遍而灵活的技术 :只要 我们能够写出似然函数—— 
它实际上取决于样本数据如何产生的假设——则理论上我们即可估计总体参 
数。而在现实中我们则需考虑对数似然函数是否有效 [6] ，其中一个重要的问题 
是:该 函数是否只有一个最大值。若函数有好几个最大值，则参数估计应考虑 
其起始值。而 Tobit 对数似然方法并不存在这一问题，因为它仅有一个最高点， 
即广义凹函数 ( Olsen ， 1978)。 

Tobit 模型的最大似然估计 

在写出 Tobit 模型的似然函数之前，我们应考虑样本数据及所做的假设。 
为使论述具体化，我们以本节开头所谈的奢侈品消费为例。首先假设％服从正 
态分布，不同观测值的误差项彼此独立，而且误差项与解释变量不相关。其次， 
对样本中的所有家庭，我们知道其是否有奢侈品消费行为。再次，对于其中的 
N , 个未删截个案，我们知道其消费数额。我们使用这三项信息去构建样本整 
体的似然函数。由于对所有样本，我们皆知道其是否有删截，因此，删截个案对 
似然值的贡 献为： 

JX (1 —杂） [2. 14 a ] 

0 

即所有删截个案的被删截概率(等于1减去未删截的概率)的乘积。 

而未删截个案的贡 献为： 

H ^ [2. 14 b ] 


即所有未删截个案的未被删截的概率的乘积。最后，对于未删截个案，我们还 
知道其具体消费数额，这同样应为似然函数的一部分： 
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y-r 1 彡 [(M — 

^7 


[2. 14 c ] 


此为截断正态分布的密度函数。由于杂岀现在 2.14 b 式中的分子部分，亦出现 
在 2. 14 c 式中的分母部分(皆作用于未删截数据），于是可互相抵消。将其与式 
子 2.14 a 合并，则似然函数为： 


I = XX [1 — ^.]H —X^/a] 

0 1 

为了估计方便，我们使用其对数形式， BP : 


L = X ) log(l —灸)+ 2 [OS ~/^—2 — S 占 (3^ — X'ipy [2. 15] 

0 1 V 2 m l 1 

此为 Tobit 模型的完整对数似然函数。注意未删截个案之对数似然的加总 
部分与 2.13 b 式中一般误差回归模型的对数似然函数完全相同。 

为举例说明我们所讨论的方法，我们使用模拟数据，其总 体为： 

y* ^ l + 2xi+fj，i 

其中 p 服从均值为0标准差为2的正态分布。因而总体参数 J 3=2， ff =2。 从 
总体中抽取2000个个案作为样本，用以估计0和〜由于此为模拟数据，因而我 
们可以简单地使用潜在变量 y 进行样本回归。则得到估计值 } = 126( 标准 

误= 0. 052)； a (截距项 ） = 0. 927(0. 053) 以及/ = 2. 02。 

若从0对样本进行删截，则我们定义 y 为： 

yi ^ y* if y* > o 
yi = 0 if : y 广 < 0 


在我们的样本中，我们给予^ 472个0值。接着我们使用以下四种方法估计0 
和: 


A . 使用所有观测进行 OLS 回归 

B . 使用非零观测进行 OLS 回归 
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C. 赫克曼两步骤估计 

D . 最大似然 Tobit 估计 

表 2. 2是4个拟合模型的结果，可以看出它们对卢和 a 有着不同的估计值。 
最显而易见的是 Tobit 模型和使用潜在变量进行回归的 OLS 模型（当然，在实 
际数据中我们因为无法获知 y 而不可能进行此项比较)得岀了非常近似的结 
果。而赫克曼两步法提供的结果也比较相近。相反，使用^或者大于0的部分 
3；进行 OLS 回归所得到的结果则远远偏离于总体^8和 tr 的值。正如我们在第1 
章所指出的，这些估计是有偏的。对于方法 A ， 当使用所有的^值时，其偏误的 
来源是显而易见的。等式 2. 8和等式 2. 9给出了: v 的非条件期望的正确模型， 
而^对工所做回归得出的系数估计与式 2. 9中得出的部分并不相等，除非对于 
所有个案都有屯= U 因而木= 0)。但办是某一个案未被删截的概率，由于删 
截个案总是存在，因而其不可能为1。所以若等式 2. 9中的系数是无偏的，则方 
法 A 估计得到的系数是有偏的。 

对于方法 B ， 它仅仅使用正数的 y 值，而等式 2. 7中给岀了 £0 | 3^>0)。但 
该式却不能用正数^对 x 的估计得到，因为它违反了 0 LS 回归的两个中心假 
设—— u 的均值为0,以及 w 和工不相关——因而不能保证估计量的无偏性和 
一致性。此时， | /a >—％,)不等于 0( 因为 w 的非条件期望等于0)，相反 
它会是 X ,的函数( M a ddala ，1983:2)。因此，方法 B 的系数是总体参数^8的有 
偏估计。正如我们在第1章指出的，非删截部分数据的 0 LS 回归无法得到无偏 
参数估计，即使仅仅对总体的未删截部分而言也是如此。 

现在关注方法 C 和方法 D 。 注意在赫克曼 probit 模型中，如前文所述 a 设 
为1。然而 probit 和 Tobit 模型的系数皆可用于计算办，因此我们期望其结果 
相等。由于其概率都计算于网,/^因而 Tobit 模型的系数大约应为 probit 模型 
的 2. 022倍。表 2. 2表明这项关系大致成立， Tobit 模型的系数略小于 probit 
模型系数的两倍。 
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表 2. 2 删截数据回归结果 { 括号中为标 准误} 


方 法 


估计量 


a 

P 

a 

(A) OLS (所有样本包括$ = 0) 

1. 529 
(0. 043) 

1. 681 
(0. 043) 

1. 676 

(B) OLS (仅: >0) 

2. 085 

(0. 060) 

1. 386 

(0. 054) 

1. 704 

(C) 赫克曼两步法 probit 

0_ 466 

(0, 010) 

L 084 
( 0 , 010) 

1. 000 

回归 

0. 846 

2. 174 

2.178 

(0_ 266) 

(0. 174) 

(0_ 456) 

(D) Tobit 

0.929 

2.125 

2. 022 

(0. 059) 

(0. 056) 

(0. 038) 

，对: r 的回 归： ECy ；) = 0. 927 + 2.126^ 




(0.053) (0. 052) 





最后，我们应提早指出赫克曼方法中的第二步 OLS 回归对〃及其标准误的 


估计是错误的。赫克曼方法能给出卢的一致性估计，但未能给出 a 的，并且也不 
能对其提供渐进一致的标准误。因而我们需对其回归结果进行调整。如第3章 
将描述的，这些调整相当直接。而在删截回归模型中，相对于使用最大似然 To - 
bit 估计，赫克曼两步估计法不具有任何优越性，尤其是当现在后者已经出现在 
许多电脑程序中的时候。然而，在下文中，两步模型仍将被广泛地用于处理这 
类问题。 


Tobit 模型的参数解释 


为解释 Tobit 模型的结果，我们可以从四类期望值的角度入手考察其估计 
参数。它 们是： 

( a ) 潜在变量的期望值。在 Tobit 模型中，它 是： 

Eiy ； I X ,) = [2. 16] 

( b ) 超过删截域值 c 的估计 概率： 
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pr(^z > c) = 巾 [2 - 17] 

(c) 观测值的非条件 期望： 

E { yi I X,) = ^ X f ^ + a — +(1 — 灸) （ [2.18] 

(d) 在大于域值 t： 的情况下，观测值的条件 期望： 

E(y t I y>c ， X,) + + c [2. 19] 

分清这四项期望值的区别是非常重要的。诸如 LIMDEP 和 SHAZAM 等 
软件的 Tobit 最大似然估计程序输出的 Tobit 系数，都直接与潜在变量，相 
关，因而它们表示I变量一个单位的变化对潜在变量的期望值的影响。换言 
之，对于潜在变量， Tobit 模型的0可以用类似于 OLS 模型的/?来解释。 

因此这些系数在用于解释 (b)(c)(d) 时不能釆取同样直接的方式。此时变 
量 x 的一个单位的变化对因变量的影响不能直接由系数^给出，因为一 旦工改 
变，则#和少也会改变，而它们皆对 pr(w >c )、 或£0 I d 等期望值 

的表达式有影响，因而其偏导数较难计算。从 U) 到 (d) 的偏 导为： 


3E(y # ) 


[ 2 . 20 a] 

dpr(y > 0 ) ,、 A 

3 Xj = ^ a 


[ 2 . 20 b] 

dE{y) … 


[ 2 . 20 c] 

3E(y | 3 / > 0 ) 「 

乜 ^L 1 z 0(z) 

{ 、 ？ ， 

[ 中 (z) j 」 

[ 2 . 20 d] 


此处， z 是 Xb/a 的值，我们对第 j 个: c 变量求导 [7] (为方便省去下标则四 
项偏导的符号都与译相同。 

如前所述， E(y )对X,的偏导即为 ft 。它反映了 V与 x 之间的线性关系 
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(如等式 2.1 所示）。回到本章开始的例子，家庭月收人的系数表示收人的微 
小变化带来的奢侈品消费倾向的改变程度，对于其他变量，其解释类似。相反， 
pr ( 3 ； / > c )、£：( 30 * E ( 3 ； | y > f ) 对 A 的偏导则都取决于 z 的值，因而是非 
线性的。 

对于 ( b ) ，系数/?的解释与 probit 模型相似，唯一的不同，是其用^除以& 
这是因为 a 和# 在 probit 模型中不能被分别估计，但在 Tobit 模型中其估计是 
可以分开进行的。因此使用我们的例子，这表示解释变量的微小变化(如收入） 
对家庭有奢侈品消费的概率的影响。与 probit 模型的结果相似， 巧 的变化对概 
率的影响在概率为 0. 5左右时最大，在概率接近0或1时最小(参见 Aldrich 
Nelson , 1984:43)。这是因为其偏导等于系数卢乘以标准正态密度函数卜，而 
和 在相应概率接近于0或1时趋向于0,在相应概率等于 0. 5时取其最大值。 

的偏导数等于相关系数 A 乘以屯 U )， 即某观测值未被删截的概率。 
该概率越大，则£：(%)随&的变化幅度越大。这显然是合理的，因为若％超过 
c 的概率非常小(即大部分/小于幻，则 A 的微小变化对 £(30 的影响将会很 
小甚至没有影响，因为/仍会小于^而^则仍为0。这项偏导说明在其他 *r 
保持不变的前提下，奢侈品消费的观测值随某一工变量的变化而发生的改变。 

最后，3^大于域值时的条件期望的偏导，表示某一: r 变量的变化对那些有奢 
侈品消费的家庭的消费值的影响。如公式所示，该偏导等于相关系数0乘以括 
号内的平方项。后者总是为正，且随 z 的增长而增长。因此那些在奢侈品上消 
费较多的家庭与消费较少的家庭相比，其消费额对变量: r 的变化反应更大。 

麦克唐纳德和莫非特 (McDonald & Moffit , 1980) 对 Tobit 的偏导形式给 
出了一项有趣且有用的分解。从式 2. 8中^的期望值出发，他们注意到其对某 
个 x 变量的偏导可以写作 


3E(y) 


= 0( z ) 


3E(y I ^ > 0) 


+ E( y I 


[ 2 . 21 ] 


即： 


dXj 


dXj 
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0(z)X^ 1 — 之 


jiiz) 



2 _ 

+ 

J 

- 



X\p + a 


j>iz) 

少（之）- 


X +(z) 


A 


[ 2 . 22 ] 


他们指出 Tobit 偏导形式中重要的一点，即^的总变化量可以被分解为两 部分: 
一是删截域值之上的观测值的变化，以其处于域值之上的概率加权(等式 2. 22 
中的第一部 分）; 二是此项概率的变化，以其观测值的期望加权。这使得 Tobit 
效应的分解成为可能。在奢侈品消费的例子中，我们可以将每一个解释变量的 
效应分解为两项“次效应 ”:首 先是在家庭有奢侈品消费的前提下，解释变量对 
消费额的影响;其次是解释变量对具有奢侈品消费的概率的影响。使用模拟数 
据，我们可以使用样本的 x 均值计算麦克唐纳德和莫非特的分解式，得出以下 
结果： E (： y ) 对 x 的导数等于 = 0. 45513)，乘以 /?(= 2. 125)，则等于 
1. 278。这可以分解为 0. 532,即由黾计算的 EO 0) 的 变化; 以及 0. 746, 

即由 E ( 釗 ^>0) 的均值计算的超过域值的概率的变化。因而在此例中概率的 
变化比均值的变化更显著，占^的总变化的58%。感兴趣的读者可以参见麦克 
唐纳德和莫非特的论文 (McDonald & Moffit , 1980) ，其中列举了该分解方法的 
几项实际运用。 


一个实际例子 

霍诺汉和诺兰 (Honohan & Nolan ，1993) 运用 Tobit 模型研究爱尔兰家庭 
总财富中金融资产的份额。其样本包含3089户家庭，其中2121户有金融资产 
(如股票、债券、储蓄)。他们用家庭总资产(爱尔兰镑）、家庭年收入、家庭区位 
(城市或农村，以虚拟变量进入模型），家庭户主性别(虚拟变量，若户主为男性 
则取值为 1) ，户主是否专业技术雇员，以及户主是否自雇佣人员来解释家庭资产 
中的金融资产比例。其中，家庭总资产被看作二次项，因而其平方也被加入模型。 
表 2. 3是对3089户家庭分别拟合 OLS 和 Tobit 模型得到的结果。 

最令人惊讶的是， OLS 回归中家庭总资产及其平方的系数皆为负数，表明 
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金融资产份额随家庭总资产的增加而减少。然而，在 Tobit 模型中此效应消失， 
两项解释变量的系数在统计上都不显著——这项发现相对更合理。相反，在 
Tobit 模型中，收入和专业技术雇员的影响更显著。所有家庭中相对较低的金 
融资产份额（占总资产的8%)，与房屋资产（占总资产的55%)和农场(25%)的 
普及形成了鲜明对比。结果显 示:仅 仅那些可支配收入相对较高的家庭才会选 
择投资金融资产。 


表 2.3 

家庭金融资产比例的影响因素(括号中为 i 

t 值） 

自变量 

方 

法 


OLS 


Tobit 

常数项 

6.26(3.3) 


-7.47(2. 8) 

家庭总资产 a 

一 0. 69(6. 0) 


-0. 18(1. 1) 

家庭总资产平方 

—0. 003(2.5) 


0 . 003(1. 6) 

家庭收 

0. 006(2.5) 


0,016(5.3) 

城市 

6. 14(5. 9) 


7-35(5.1) 

男性户主 

4. 09(3. 0) 


3.71(2.0) 

专业技术雇员 

2. 92(2.1) 


6. 20(3.3) 

自雇佣者 

一4. 56(2.3) 


一4_ 87(1. 9) 


注: a . 单位是1万爱尔兰镑。 

b . 家庭总的年收入，单位为100爱尔兰镑。 
资料来源 : 霍诺汉和诺兰 （1993 : 83) 。 


表 2. 3中 Tobit 模型的系数应联系潜在变量进行解释，它表示家庭投资金 
融资产的倾向或能力。因此，收入的系数 0 . 016表示家庭收入一个单位的变化 
对其金融资产投资选择的影响。而该变化对实际的金融资产份额观测值的影 
响则由等式 2. 20 c 给出，它取决于其他系数以及家庭在其他变量上的取值。然 
而，若我们假设 0(3 等于有金融资产的观测概率 （2121/3089 = 0 . 687) ，则收入 
对金融资产份额的观测值的影响相对较小——等于 0. 011。这即为投资金融资 
产的概率为总体平均值的家庭，在收入发生一个单位变化时金融资产占有比例 
的期望变化。它仍然大于 OLS 的偏误及不一致估计，即 0 . 006。若使用 OLS 回 
归，则霍诺汉和诺兰会低估收人对家庭金融资产投资的影响[ 9 ]。 





第 3 章 I 选择性样本模型和截断回归模型 


Tobit 模型的缺点之一，是它假设同一列变量及参数既决定截断的概率，又 
决定观测因变量的期望值。本章我们将放松这一假设，使模型两步骤中的变量 
效应可以不同，且由不同的变量分别决定每一步骤。 

克拉格 ( Oagg ，1971) 的模型弱化了 Tobit 模型的这一中心特征。对后者 
来说，潜在变量超过域值 c 的概率表达 式为： 


pr(y- >c) = 


[3. la ] 

而 y 关于 X 的期望 值为： 



E(y ； | X ,) 


[3. lb ] 

克拉格模型保留了等式 3. lb ， 但将等式 3. la 替 换为： 


pr(y* >c) = 


[3. lc ] 


比较这两项，则影响概率的变量虽然保持不变，但表达式的两部分(概率和 
条件期望)有了不同的系数。假设模型的两步骤相互独立，则这两部分系数可 
以分开估计。克拉格使用该模型分析汽车的购买行为，认为购买汽车与否的决 
定和购车花费的决定相互独立。芬恩和施密特 (Fin Schmidt , 1984) 提供了 
另一个例子 :建筑 物发生火灾的概率是楼龄的正函数，但火灾损失则可能是楼 
龄的负函数。 

选择性样本模型 


选择性样本模型扩展了克拉格的模型，放松其对模型两步骤互相独立的假 






高级回归分析 


设。模型的基本思路是:结果变量^仅当另一变量 Z 满足某种条件时才可被观 
测。所以此类模型的最简单形式将会包含两个 步骤: 在第一步中二分变量 W = 
0或 1) 决定 J 是否可被观测，仅当 Z = 1时 O 具备观测值;而第二步则是在 J 
可被观测到的情况下估计其期望值。 

以正式形式表示，则 令： 


z * = uha + €i 
A = 0 若 z * < 0 
A = 1 若 z * > 0 
y- = Xi/3 + Ui 
yi = yi 若 ^ = 1 
yi 无观测若 — 0 

用语言表达则是:我们观测到一个虚拟变量^它是潜在连续变量^的显现，而 
潜在变量？的独立误差项 e 服从正态分布，并且均值为 0,方差为 a 2 e 。 当 z = 1 
时我们可以观测到: V ，而 y 是第二个潜在变量 ： y * 的显现，其独立正态分布误差 
项 w 的均值为0,方差为 S 。 两个误差项的相关系数为…因此，《和6的联合分 
布是二元正态的。而两组解释变量 u ； 和 x 并不必须互不相交，在某些实际运用 
中，它们可能是同一组变量。若^0被假设为0,则我们得到克拉格模型。 

在实际情况下，误差项之间的相关，通常被认为是由于等式3, 2 a 和 3. 2 b 中 
共同省略了某一变量。例如我们关注脱离失业状态的人群的收入。模型的选择 
等式关注脱离失业状态的概率,而结果等式则以已脱离失业状态的人群的收入， 
或收入的转换函数为因变量。存在同时影响这两步的相关变量，例如“动机”。那 
些内在动机强烈的人更容易脱离失业状态，同时也更容易获得高收人。但由于其 
难以测量，所以不被纳人模型。这可能会导致两个误差之间的相关系数不为 0。 

但这种理解却是不正确的。相反，我们应将相关性看作模型内生的固有特 
质。换言之，即使我们不适用样本，不忽略测量 I 和中的某个共同变量，而 


[3. 2a] 


[3, 2b] 


①原文为: T 和' ——译者注 
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是使用总体的理论模型，我们依然假设 P 关 0 Q 因此任何导致 M 与 e 相关的因素 
都是内在不可测的。如伯克和雷所言 (Berk & Ray ， 1982: 383) :“即使模型被完 
美拟合，两项误差仍具共变性。两个模型在本质上受到相同的随机干扰(或共 
变的随机干扰）。” 

选择性样本模型被大量用于许多社会科学研究中。若考虑得足够深 
入，则在任何社会科学数据中都能发现潜在的样本选择过程。如成年人口的随 
机样本实际上仅仅是出现在抽样框中的成人总体的随机样本，若抽样框为选民 
手册，则那些未注册选民资格的成人将不被抽样。那么这是否意味着我们应该 
修正模型估计中的一切偏误呢？ 一般而言，回答是否定的，除非我们强烈怀疑 
未注册人口的非随机性。但在19世纪80年代晚期至90年代早期，这种情况确 
实存在。对选民统一征收人头税的举措，使不注册行为更容易发生在相对贫困 
的人群中。我们需要对多样本选择过程是否具有重要影响作出判断，而在某些 
情况下，我们可以对其忽略不计。 

等式 3. 2展示的结构问题在于 :使用 z = 1时的观测值简单对^进行1上 
的回归，所得到的^估计量不仅不一致，而且有偏(我们将在下文证明其原因）。 
再一次，解决这一问题需采用两个步骤。第一步是估计个案被选择的概率，或 
者说是对虚拟变量 z 进行变量 W 上的估计。再在个案被选择的前提下，估计变 
量 y 的期望值。这是在变量 X 上对^的估计，并会修正^仅在 z = 1时才有观 
测值的问题。 

我们用赫克曼方法拟合该两步模型。使用所有个案， probit 模型估计1 
的概率，则得到系数 a 为： 


pr (zi = 1 ) = 0(zv f ia) 

由于 probit 模型中 a 和〜不能分开估计，我们假设 = 1。 

在第二步中我们估计1时， 向量足 决定的^的条件期望值。该步骤的 
推演过程与 Tobit 模型类似(等式 2. 5a、2. 5b 及 2. 6) 。 


E( yi \z^l 9 X,) = X^ + Edu, I ^ = 1) 
X f ij3-\-ECui I > vuia ) 


[3. 3 a ] 
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为计算等式 3. 3 a 中的条件期望，我们引用另一统计理论的结果。该结果 
说明 :二元 分布中一个变量在以另一变量被删截时，其期望 值为： 


ECui 




[3. 3 b ] 


该表达式比 Tobit 模型中的更复杂，因为此时我们不再计算 w 本身超过某特定 
值的条件期望，而是根据另一变量 e 的取值来计算条件期望。将等式3, 3 b 代入 
3. 3 a ， 可得： 

E(y { \ z — 1, Xi) — X^ + pa^u [3. 3c] 

为了估计这一模型，我们首先使用 probit 模型的结果，对 z = 1的子样本计 
算^ (逆米尔斯比率，用七表示），然后对于相同的子样本，我们对^使 用足和 
估计的夂进行 OLS 回归： 

E( yi I z = 1, X ,) = x ^ + eXi [3.4] 

以得出 )3 和 0 的估计值。0是 P 乘以〜 的估计量，由于& = 1，所以它等于 M 和 
e 的协方差(〜）： 


r\ _ (J Uf ； 

a == fxx u = - a u = ave 

(TeCTu 

讨论这些模型是为了获得工对 J 的效应的好的估计。所以如果我们简单 
地使用观测到的个案，并对 M 使用又进行回归，则等式 3. 4表明 ：向量 P 的估 
计一般是有偏的，因为变量 A 被省略了。因而样本选择性偏误问题在这个意义 
上等同于模型的错误设定问题，即忽略了某项自变量。然而在两种情况下 OLS 
参数0也是无 偏的： 

1. 则表示等式3_4中的0为0,因而其可化简为一般的 OLS 
回归式。这是选择和结果过程相互独立的情况。 

2. 若参数 A 和 某一工 变量（如之间的相关系数为0,则该变量的 
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OLS 回归系数戽是无偏的。这是由于遗漏变量对 OLS 回归的影响。若遗 
漏变量为 A ， 则参数 A 的偏误等于 A 和 A 之间的相关系数乘以参数心若 
相关系数为 0, 则偏误亦为 0( 见 Johnston， 1972： 168—169； Kmenta, 
1971:393—394)。 

在第2章讨论删截回归的两步骤模型时，我们已经说明结果模型中系数的 
标准误和 a 的估计都是不正确的。现在的模型同样如此。 调整％ 的估计相对 
容易。定义次 =—Ai(zi +Ai) ，其中 A = *04: 。令&表示赫克曼方法第二步回归 
中〜的错误估计，而 S 表示回归的离差平 方和： 

X 

其求和符号表示对所有 z = 1的个案求和。而 A 的正确渐进估 计为： 

0 2 2 ^ ) [3_ 5] 

其中 N 是 z = 1的样本个数，0是 A 的估计回归系数 (Greene， 1990:744—745; 
Heckman, 1979:157)。 

标准误之所以错误，则是由于两个原因 :模型 3. 4是异方差的，并且使用入 
的估计值而非 A 本身，导致系数#的标准误需要考虑 A 的估计误差。而不幸的 
是误差标准误 (0LS) 既可大于亦可小于其正确值，因此不能被用作真实标准误 
的下界。因此，^和〜的正确协方差矩阵V 为： 

+ P Z ( X * 屢) S (W’AX* )](X w X^r 1 [3. 6] 

参数估计的标准误由矩阵 v 的对角线的平方根给出。此处 x # 是矩阵 
[X； A ]; W 是 probk 中解释变量的 矩阵； A 是对角线为 《、其 他为0的 矩阵; 

I为单位矩阵;而 D 则是 pmbit 参数的渐进协方差矩阵。对^进行估计 ，有： 
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因此，标准误的修正需要一些矩阵操作 （ Greene , 1981) ;而一些软件包如 
LIMDEPCGreene , 1991) 则可自动进行这类修正。 

模型也可使用最大似然估计，但我们需要定义似然函数。令黾=少(^^)， 
则所有 z = 0 的个案对似然值的贡献为1 一灸 ，而 z = 1的个案的贡 献为： 

办 X I Zi = 1) [3_ 8] 

其中 cr 是/在 z = 1 时的标准差，而 〆 : y , | z , = 1) 是2： = 1时 y 的条件密度 
函数。则等式 3. 8实为被选择概率乘以选择样本中: y 的条件密度的表达式。我 
们需要作进一步的处理以使其更易操作。这超出了本书的范围，但雅美米亚 
(Amemiya ， 1984:31— 32) 证明等式 3. 8 可以 写作： 

[3.9] 

-(I—〆 ） 1 "」久 \ cr u / 

加入 z = 0的个案的表达式，并取其对数形式，则对数似然函 数为： 

L = 2 log(l —杂） + X ) log —~==r — 2占 (y — X f ij 3) 2 [3. 10] 

+ Siog^ 彻 M ^ ) 

1 L ~~a—^ 」 

似然函数的作用之一，是告诉我们在何种情况下模型可以得到简化。注意 
如果 p = 0,则等式 3. 10可以分为两个部 分:一 是被选择的概率单位，二是被选 
择子样本中 y 的 OLS 回归期望值。而由于这两部分并不存在共同参数，所以它 
们可以分开估计。这表 明:若 e 和 m 之间不存在残差相关性，则简单 OLS 回归 
是合适的。因此，与其说^仅对一个选择性样本存在观测值导致估计困难，倒 
不如说是由于选择的非随机性而导致估计困难。 

现在我们有三种可能的方法来分析选择性样本数据 :简单 OLS 回归、赫克 
曼两步估计以及最大似然估计。其中 OLS 回归的估计量既有偏误，也不具有一 
致性(参见本书第2章)。而最大似然估计在满足合适条件的情况下(等式 3. 2 a 



*( 截、选择性样本及截断数据的回归模型 


和 3. 2 b ) 是渐进无偏和渐进正态分布的，且它会比两步估计更有效。鉴于以上 
原因，且由于最大似然估计程序的普及，它已成为该模型常用的拟合方法。 

例如我们有与等式 3. 2 a 和 3. 2 b 所描述的结构相同的数据，在其总体中， 




yi 

=1 + 2xi + Ui 

[3. 11a] 




=1 + 2vui + 

[3. lib] 

且有： 






之 , ： 

= 0 

若之广 < o 



A = 

=l 

若之 ：>0 



yi : 

=y; 

* 若 = 1 



yi 

无观测若 4=0 


其中： 






a e : iV(0 ， 1); 

o u : 

N(0, h 8028) ; p etU = 0.8321 



工和 m 的相关系数为 0. 2425。从总体中抽取2000个个案作为随机样本，用以 
估计参数《(等式 3. 11 a 的截距项)、孚％和卜表 3. 1是使用各种方式得出的估 
计结果 D 


表 3. 1选择性样本模型估计结 果:模 拟数据(括号中为标准误) 




估 

计量 


万 拔 

a 


(Tu 


OLS 

(JC = 1 时） 

1. 2316 
(0. 0527) 

1. 9077 
(0. 0537) 

1. 7738 


赫克曼两步法 
(未修正） 

1. 0262 
(0. 0570) 

1. 9620 
(0. 0527) 

1. 7252 

0_ 7266 

赫克曼两步法 
(修正） 

1. 0262 

(0. 0585) 

1. 9620 

(0. 0529) 

1, 7870 

0. 7014 

最大似然法 

1. 0035 

1. 9801 

L 7889 

0. 7626 

C0. 0552) 

(0. 0522) 

(0. 0384) 

(0. 0435) 
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表格的第一行是使用1173个有具体^值的被选择个案进行 OLS 回归的结 
果，其中不含有 p 的估计，因为此时它被假设为0。第二行和第三行都是赫克曼 
两步估计的结果，其中第三行提供了修正的标准误及估计的 L 在这两行中# 
都如等式 3. 7所示计算。最后一行则是最大似然估计。显而易见的，两步估计 
和最大似然估计皆给出了与总体真值相当接近的 a 和^且修正两步估计和最 
大似然方法都改善了 ％和^的估计。然而最大似然估计提供了比两步模型更 
小的标准误。综合四个参数而言，最大似然法提供了最好的估计结果。在第5 
章，我们将详细讨论这是否为一种必然情况。 

参数解释 

和 Tobit 模型类似，该模型的参数估计量也可使用多种方法进行解释。 

1. 某个案被选择进人子样本①的概率由模型 probit 部分的系数提供。在 
最大似然估计中，它们是与其他系数共同估计的。 

pr ( z / > 0) = pr ( z , = 1) =少 (wD [3. 12 a ] 

此概率对某个 W 变量的导 数为: （为方便起见省略下标 G 

取 [3.12b] 

其中 g 表示的特定值。 

2. 潜在变量/的期望 值为： 

E(y* I xd = X f ij3 [3. 13 a ] 

而其对某一 X 变量 ^ 的导数即为办。注意它并不是对观测值^的边际效应的 
估计，而是对总体期望值的边际效应的估计。 

3. 选择性样本中 y 的期望 值为： 

E(yi \ z = 1 , Xi ) = X ^ + pau ^ [3. 14 a ] 


①原文为样本。-~■译者注 
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而 y 对 A 的导 数是: 


dE(y |^= 1 ) 

3 工 k 


= /i 一 akpGu 


「作） 

彡 ( g ) 

2 _ 



- 


[3. 14 b ] 


该表达式与 Tobit 模型中的等式 2. 20 d 非常类似，唯一的不同是它包含系数 办， 
表示^对被选择概率的影响。 在心 既属于变量 W 也属于变量 X 时，该部分显 
然是相关项。但在我们的模拟数据中，若情况并非如此，则其对^的影响即为 
涔。若情况如此，则其对 J 的影响可分为两 部分: 直接影响属，以及间接影响，它 
是由于 A 的变化同时改变着 A 的估计值而造成的。由于在等式 3. 14 b 中， 
pcj u { gi ^ g ) mg)i - i ^ mgn 2 } 的值总是为正，因此两项效应的方向不 
同。所以若问题变量确实对选择概率和结果的期望值皆有正影响，则忽略导数 
的第二项会夸大其对 y 的影响。 

观测变量 3^ 的非条件期望可以由 Tobit 系数作出解释，但却不适合于选择 
性样本模型。在 Tobit 模型中，它包括所有固定在删截值上的 >但在选择性样 
本数据中，对于未被选择的个案，我们没有任何信息。 


一些实际问題 


删截数据和选择性样本数据的分析方法并非不存在任何问题，在第5章我 
们会详细论述这一点。另外还有一些实际问题值得我们注意。首先是模型辨 
识问题。如前文所述，有些赫克曼两步估计在选择和结果机制的估计中均使用 
同一组解释变量，而另外一些估计则会在结果机制中使用包含所有选择机制解 
释变量的某组变量。在这种情况下，结果模型的参数仅仅由于 probit 模型的非 
线性特征才可辨识。若模型是线性的，则由于误差项之间的非零相关系数，模 
型不会被识别。在两步骤模型中这更为显而易见 :如果 所有的 w 变量同样出现 
在 X 中，若选择模型是线性的，则 A 的估计为部分 x 变量的线性函数。但一般 
而言，依赖 probit 的非线性去进行模型辨识是不可靠的。更好的办法是对系数 
做某些限制，如规定选择步骤中的一个变量对结果变量并无影响。尽管我们需 
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要根据分析中的概念模型来决定哪项限制更合适，但这会保证模型辨识的可能 
性。在实际的例子中，依赖 probit 的非线性会使我们难以辨识参数估计，从而 
导致估计的不稳定性。例如在上面的模拟数据中，若以 I 代替等式 3. 11中的 
则在修正两步骤估计中，参数 a ， 和0之间的样本相关约为 0. 8。考察模型 
参数估计间的相关性是明智的。若模型辨识依赖于 probit 的非线性，则这项考 
察就显得更为重要。 

两步骤模型的另一个问题是关于 p 的估计。由于它是两个值的比率，如等 
式 3. 7所示，则我们不能保证其一定落 入_1 到1的区间。我们必须仔细检验 
模型是否存在任何可能的错误设定问题。 

实证例子 

最大似然方法在选择性样本模型中的使用远远少于其用于赫克曼两步骤 
方法。但哈根和帕克 (Hagan & Parker ，1985) 却给我们提供了一个相当好的例 
子。他们观察对白领工人罪犯判刑的严重程度(用11个数字表示不同的严重程 
度)的影响因素。其中选择性偏误在于 :他们 的样本包含所有被受理的嫌疑人， 
而其中仅有63%被宣告认罪并获刑。在是否被定罪的概率模型中，哈根和帕克 
的 probit 模型包含10个解释变量，其中仅有3个显著 (Hagan & Parker , 1985： 
309)。在结果等式中，他们使用了完全相同的解释变量。在不修正选择性偏误 
时，仅有“受理方式”这一变量显著，其对判刑严重程度有很强的正影响(系数为 
3. 30 7 ,标准误为 a 402)。当在结果等式中加人逆米尔斯比率时，许多系数都改 
变了方向，但仍不显著。变量“受理方式”的系数基本不变(为 3. 452,标准误为 
0. 443)，而逆米尔斯比率本身也不显著，其标准误与系数大小类似(为一 2. 905, 
标准误为 2. 306)。加入逆米尔斯比率的最大影响是将常数项由 8. 63改变为 
5 . 1 4 。哈根和帕克由此得出结论 :“仅 观察那些最后定罪的案件并不会使我们的 
数据分析产生偏误 (Hagan & Parker ， 1985:309)。” 

这类在结果等式中包含逆米尔斯比率，但却发现其影响不大，或者逆米尔 
斯比率的系数(即 w 和 e 的协方差)本身就不显著的例子并不罕见 (Allison & 
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Long, 1987; England, Farkas, Kilboune，and Dou, 1988; Sanders Nee, 

1987) 。 相反的例子如对男女收入决定因素的研究 （ Tienda，Smith & Ortiz , 

1988) ，其中逆米尔斯比率的估计非常显著。此处选择性偏误的出现是由于研 
究使用了美国人口普查1970年和1980年样本中工资或薪金收入不为零的子样 
本。在该研究中， probit 等式中包含15个解释变量，其中大部分都是显著的 
( Tienda 等，1988:208)。而结果等式中包含12个解释变量，其中仅有5个与 
probit 等式相同。无论男性或是女性，其逆米尔斯比率变量的参数估计都很显 
著，因而即使他们未给出修正后的结果等式，该研究仍表明 :不对 样本选择性偏 
误进行纠正，将会导致参数估计的偏误。 

比较这些研究，我们看到选择性偏误在判刑严重程度的模型中并不成为问 
题，而在收入模型中则确实需要解决。但这一相反的结论亦可能是因为后者 
probit 模型中自变量的解释力度大于前者，或是因为在 Tienda 等人的研究中并 
不依赖于 probit 的非线性进行模型辨识。我们将在第5章详细讨论这一问题。 

截断回归模型 

在删截数据和选择性样本数据中，虽然在不满足某种条件的情况下，我们 
缺乏个案的 y 值信息，但对于所有个案，我们都有关于解释变量的全面信息。 
因此我们称变量 y 本身是截断的，但其样本却分别是删截的或选择性的。相 
反，若在不满足条件的个案中，我们不仅缺少关于3/值的信息，同时也没有解释 
变量的信息，则样本是截断的。此时两步骤估计不再适合，因为我们缺少可用于 
分析第一步骤，或称选择步骤的数据。但我们仍然试图拟合结果模型，如下 所示： 

y * = X -^3 + Ui [3.15] 

其中 N ( 0 , ^) 0 在我们的样本中，仅当 < < c 时，我们可观测到 
y (= y ;) jy 是收人，则 c 可能为收入的贫困线。因而我们需要 估计： 

E ( y { \ yi < c 9 X ,) = E ( y { | u { < c — X ^) [3. 16] 

使用附录 A 中的结果 ，则： 
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ECyi I yi<“ Xi) = 

= X : j 3 — a 又 M [3.17] 

其中 W = 

a 

从等式 3.17 可知，若忽略截断，仅对 ^ 以 o ： 做回归，则由于未考虑 A ， 戶的 
估计也是有偏的。然而，在前文的两步骤模型中，我们可以从 probit 模型得到 
逆米尔斯比率的估计值，并将其作为一个新的变量加入结果估计 式中; 但现在 
我们却没有信息去做这样的估计。因而两步骤方法不再适合，可行的方法是最 
大似然估计。确实，该模型的对数似然简单地包含 Tobit 对数似然中关于未删 
截个案的部分，我们有该部分的信息。未删截的个案对 Tobit 模型中对数似然 
函数的贡献可分为两 部分: 未删截的概率(现在我们不能估计），以及等式 2. 14 c 
中截断的正态分布的密度函数。这即为我们会使用的部分。我们用黾 On ) 代替 
该式中的杂，从而得到以下似 然值： 

n- ^ [( ^7^ )] [3. is ： 

丄丄 a ^( m ) 

由此，可得到对数似然 函数： 

■L = X) log y^~T ~ 2 [3-19] 

其中 c 不一定为常数。我们可以对其添加下角标 i ， 以表明它在各个个案中 
可以不同。 

截断回归模型较之删截模型和选择性样本模型都更不常见。它通常被用 
于一些特殊种类的抽样结构。若我们仅对低收入家庭，或者贫困线以下家庭进 
行抽样，则我们会得到关于家庭收入的截断样本。豪斯曼与怀斯 (Hmisman & 
Wise , 1997) 的著作给出了这类研究的著名例子。 

我们再次使用模拟数据，以举例说明该模型。假设父母社会经济地位与子 
女大学入学考试成绩3；的关系表达 式为： 
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yi =75 + 1. 5 xi +Mj [3. 20] 

其中 X 为父母社会经济地位 ， w S 艮从均值为0、标准差为25的正态分布。我 
们有350名大学生的样本数据，由于大学人学考试的最低录取分数线为125,因 
此该数据是左截断的。若忽略这项截断，直接对样本进行简单 OLS 回归，则我 
们得到 a 、 戸和 c 的估计值分别为102, 60(3. 36)、 1.157(0. 05)、 22. 545( 括号中 
为标准误)。这些估计量既有偏且不一致，并且它们的值皆与(模拟数据中的） 
总体真值有不小差距。然而，以等式 3. 19中的对数似然函数进行截断回归估 
计，则得出 u 0和 cr 的估计值分别为 72. 43(6. 36)、 1. 514(0. 08) 以及 25. 721 
(1. 294) ，都与其真值非常接近。 

截断回归模型中的估计量常用于偏导数解释。它表示当工的值发生微小 
变化时，变量^的期望值改变。由于等式 3. 20概括了总体，因而^的解释并不 
只对 y 超过域值的那部分有效，而是适用于整体。 



第 4 章 I 基本模型的扩展 


删截模型和选择性样本模型相对容易扩展。例如我们考虑结果等式中的 
因变量为二分变量，而不再是连续变量的情况。假设我们希望研究离婚，由于 
样本中不是每个个体都曾结婚，因而有些个案并不具备离婚风险，从而构成潜 
在的选择性偏误。则选择模型处理一个二分变量，其取值分别表示曾结婚与未 
结婚。而结果模型则关注曾结婚的人群，考察其离婚的概率。另一项可能的模 
型扩展出现在结果的测量既存在于被选择样本，又存在于未被选择样本的情 
况。如对劳动力市场项目的评估研究，我们不仅有参与项目的人群的收入信 
息，也有未参与项目的人群的收入信息。 

类似的，我们可以使用更加精细的选择模型。在研究中我们常常会发现， 
社会过程往往是一系列的连续选择，而参与这一过程的世代在选择序列中人数 
逐渐减少。教育即是 一例: 在教育体系的任何一点都有学生退出，因而那些停 
留至最高阶段，即博士学位的，仅仅只是4岁或5岁入学时的世代中的很小一部 
分。同样的道理也适用于刑事司法程序:在所有被逮捕的嫌疑人中，仅有一部 
分会被受理，而在被认定有罪的人中，也仅有一部分会被判监禁。若结果变量 
(如被判监禁的时间）出现在这类过程的末端，则应使用一系列连续的样本选择 
过程对其进行概念化，而最终的步骤或者是某删截变量，或者是选择性样本的 
结果变量。 

因变量的删截性和(或)样本选择性涉及的可能模型范围非常广泛。有时 
这些扩展模型可以用两步骤方法估计 ( Amemiya ， 1979； Maddala , 1983:第6章 
及第8章），而有些则更为复杂。最大似然估计常常是更合适的方法，因为它具 
备一系列两步骤估计所没有的良好属性。然而，即使我们能够写出任何复杂的 
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选择性样本及删截模型的对数似然函数，由于现实条件的限制，也很难对其参 
数进行估计。例如，我们可以写出一个三次或更高次的对数似然函数，但却找 
不到可用的程序。另外， Tobit 对数似然为严格凹函数，因此只有一个最大值， 
但对非标准化的似然函数来说，情况并不总是如此。它可能存在局部最大值， 
从而导致估计最后收敛至非最大似然的危险。在某些特殊情况下，对数似然函 
数会相对平坦，从而使得收敛过程缓慢，导致参数估计的不稳定性。因而，我们应 
当谨慎地使用这类方法，从不同起始值进行多次估计，从而避免局部最大值 问题; 
还应小心参数估计剧烈变动或对数似然函数无变化的情况 ( Eliason ， 1994: 45) 。 

本章将集中讨论两类扩展模型。一类是选择过程中因变量有多个域值的删 
截模型。我们将看到，此类模型证明了删截回归和其他重要计量模型的紧密联 
系，如研究定序因变量的定序 probit 模型。第二部分将处理一个我们在第一章 
中已初步接触过的问题，考虑选择过程和结果过程并不顺序发生的情况。它们 
被看作同时内生于某一特殊过程，是共同发生的。 

多重域值的选择过程 

在基本删截模型中 ( Tobit )， 仅存在一个域值 c ， 它对所有个案都为同一常 
数。然而在第3章关于截断回归模型的论述中我们看到: c 也可被看作在不同 
个案间变化的变量。这只会对对数似然^数带来微小的改变。而模型可以扩 
展为使用两个到多个域值。例如，我们仅在变量落入上下极限之间时才可观测 
到其具体值。日用品贸易 ( Maddala ， 1983: 160—161) 就是这样一个例子，其价 
格变化的日常范围意味着我们只能观测到潜在变量 y 的双重截断部分。又如 
仅被允许在事先决定的范围(欧洲汇率机制）内变动的汇率，若假设，为两种货 
币间的潜在汇率，则我们仅能观测到其落入汇率限制中的部分。 

一般而言，我 们有： 


y* = X'ijS + Ui 

N(0, 


[4. 1] 
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并且: 


yi = y :若 

ci < y- < c 2 


yi = Ci 若 

> y* 


: y , = c 2 若 

eg < y* 

[4. 2] 


此时似然函数有三个部分。一是潜在变量在低域值 Q 之下的个案，其贡献为变 
量不超过该域值的概率;二是超出高域值 C 2 的个案，其贡献为变量超过该上限 
的 概率; 其三是我们有: y 的具体取值的个案，其贡献等于落入域值之间的概率 
乘以 Y 的条件密度函数。再次使用附录 A 的结论，则潜在变量，超过域值^ 
的概 率为： 

pr (: y/ > c m ) = pr(X-jS + Wi > c m ) 

= pr(u t > c m — X'j3) 


以简化等式。在本章中，我们将一直使用该缩略形式。 

则/ > n 的概率为1 — 步 ( q )， y : < c 2 的概率为少 ( c 2 ) 。这两项表达式都 
将出现在对数似然函数中。仅当 y 在两个域值之间时，我们可以确切观测 y 。 
则其概率为/ < c 2 的概率减去/ < Cl 的概率 ，即： 

pr ( c ! < y * ^ c 2 ) = 0 i ( c 2 ) —0 t ( c !) 

对这些个案，我们还需要知道 Y 的条件密度函数，它的分母是同上的表达式。 
因而在化简后，那些 V 可被精确观测的个案，其贡献与在简单 Tobit 模型中一 
样。因此，完整的对数似然函数为： 

L = X) log [灸 （ Q )] + 2 log[l — 0 i ( c 2 )J 
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+ 2 


1 

V 2 m 2 


- 2 log 点 (3^ - X: 夕 ) 2 


y t = y . 


[4. 3] 


该对数似然函数与普通 Tobit 模型十分类似。我们可以根据模型计算4项有用 
的期望值。首先是^在两个域值之间的条件期望： 


E(y { I ci < < c 2) = X f iP + E(ui I ci — X-jS < ^ < c 2 — X^) 




[4. 4 a ] 


在前文汇率的例子中，该项表示在变动幅度之内汇率的条件期望值。该表达式 
使用双重截断的随机正态分布变量的标准统计结果。为得出 W 的条件期望，我 
们回忆附录 A 中单边截断变量的条件期 望为： 


E(ui I Ui《c — X ^ j 3) = a 中 U 
由于 c 2 — X 〜 p 大于 cy — X 〜 p ， 于是： 

pr(ci — X'jS ^ Ui ‘ c 2 — X-^9) = prCwi < c 2 — X-/?) — pr(«i ^ ci — X-^3) 

=^ ( c 2 ) — ^ ( ci ) [4. 4 b ] 

这即为双重截断变量 u 的条件期望的分母，则分 子为： 

a {— <f>i(c 2 ) 一 [— 木 (ci)]} 

将分子分母组合，并重新整理，则得到等式 4. 4 a 中的后半部分。 

扩展等式 1 . 1 ，可得到^的非条件 期望： 

E ( yi ) = pr (^ = c^ci + pr (： y , = c 2 ) c 2 

+ pr(ci < 3 /* < c 2 ) X Eiyi | c x < < c 2 ) 

用语言表达 则是: 观测值 ^ 的期望值等于其三类个案等于两个极限，或 y 落 
人这两者之间）的条件期望以概率加权后的总和。在例子中它即为观测汇率的 
简单期望。 

由于该表达式的最后一部分与等式 4. 4 a 相同，则化简后 可得： 
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E ( y t ) =黾 ) X q + [1 — 办 （ c 2 )] X c 2 

+ (c 2 ) — 办 （ ci)] X + (j u L^>i (ci)— 勿 （ c 2 )] [4. 4c] 

第三是潜在变量，的期望值，即 xb ， 所以关于潜在汇率，戸可以使用普通 
的偏导数来解释。最后是我们可以计算三项期望概 率:超 过低域值的期望概率 
为1 一中 ( d ) ;不超过高域值的期望概率为 0( c 2 )； 而等式 4. 4 b 则是落入两个域 
值之间的期望概率。参数#对这些概率的解释与普通 Tobit 模型相同(第2章)。 

尽管该模型有其本来的用处，但本书介绍它的主要原因却是展示其与社会 
科学研究者感兴趣的其他模型的紧密联系。当搜集连续变量数据(如收人)且 
将最高收人和最低收人综合时，我们可能用到上文描述的模型。然而，典型的 
状况是，在调查中我们并不会问被访者的具体收入，而是给其一系列收入范围 
并询问其所处的区间。只要对等式 4. 3做微小的改动，我们就可以用这类数据 
估计收入(见 Stewart ， 1983)。此时我们不具备任何关于 y 的信息，我们仅知 
道被访者的收入大于某值且小于另一值。即， 

yi = 0 若 y - <Cci 
yi = 1 若 c i ^ ^ c 2 

: w = M 若 乂 * < 

其对数似然函数由观测到^的每个取值的概率构成。若我们假设潜在变量 y 
与向量 X 间的关系符合式 4.1^11] ，则其对数似然函 数为： 

L = X)log [取 ( c !)] + XJlog [屯 （ c 2 ) — ® i ( ci )] 

夕 =1 y = 2 

十 … log[l — 杂 （ cm)] [4. 5] 

y=M 

向量# 表示: T 变量与潜在连续收入变量 ： y > 之间的关系。 

若假设我们仅知样本中收入的等级序列，则模型可以进一步被扩展。通过改 
良等式 4. 5,可以导出“定序 probit 模型 ” (McKelvey & Zavoina , 1976； Maddala ， 
1983:46 — 49)。其中的域值，或称截点，是我们估计的参数。由于我们不再有足够 
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的信息去单独估计 cr ， 所以定义‘ = c m / a , m = 1 ， K M ， 以及 A = /? Ar ， 贝!1: 

0(d m ) = 0(d m — X'Y) 

若以该表达式替换等式 4. 5 中的办 (c m ) ，则为定序 probit 模型的对数似然 
函数。此处需要估计的参数为7和若 X 中包含一个常量，则有一个‘的 
值不会得到估计。例如，我们有 4 个截点分成的 5 个区间，则 X 中的常量使我 
们只需估计其中的 3 个。而第一区间会是从 一〜到 0, 第二区间为 0 到 A ，直至 
第5 区间&到 oc ^ 等式 4 . 5中的模型显然可被广泛运用于连续变量被准确测 
量或以区间搜集信息的情况，因此定序 probit 模型在因变量是定序的，且其值 
实为某一潜在正态分布变量的显现时可被广泛运用。 

内生性选择和结果 

试想我们有一个成人样本，其中有些人有工作而有些人没有工作。我们希 
望建立工资与变量^之间关系的模型。样本总体 符合： 

logivudge) = y* = + Ui [4. 6] 

我们对 m 做常规性假设——即服从均值为0方差为 g 的正态分布，并假设 
样本个案相互独立。仅当个体有工作时，我们观测到: V 「。 假设所有个体都有其 
保留性工资 <，仅当其收入高于或等于 < 时，他们才会接受工作。 V 无法直 
接观测，但可以被看 作是： 


v- = W\a + [4. 7] 

我们对误差项 e 做常规假设，而 W 则是一组可观测的变量。假设 〆 & 〃）关0。 
若个体有工作，则定义 Z = 1，否则定义 z = 0, 以及： 

yi = ：y 广若 Zi 1 
yi 无观测若 a = 0 


当使用两步骤方法进行估计时，我们会遇到一些困难。 由于: 
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pr(zi = 1 ) = pr(y* > ) = priy* — W\a > ) [ 4 . 8 ] 

则是否接受工作的决定取决于潜在工资: V # [12] ，因而我们不能将接受工作看作 
发生在获得工资之前的选择过程。相反，这两个步骤是同时发生的。 

模型的似然函数包括两个部分。那些不工作的个案，其贡献为概率，> 
，，即： 


pr(v- > y* ) = prCW^ia + > X^ + m,) 

— pr(^ — ei > X’i 戸一 W^or) 

由于 e ~ u 服从正态分布，且其方差为： 


CT 2 = d + d — 2〜 


则等式 4. 9可 写作： 




B - W ^ 


a 


[4. 9] 


[4 - 10] 


而似然函数的另一个部分则是关于那些有工作的个案。或者说满足等式 
4.8 中的要求的个案。在之前讨论选择性样本的似然函数时，我们注意到可观 
测: V 的贡献为其被选择的概率乘以条件密度函数。此处的情况稍微复杂一些。 
我们需要看 W 和 e 的二元密度函数，且6在 yr - W ； a 处截断 ，即： 


f(Ui ， e,)de 


[4.11] 


其中 f ( a ， W 表示两个正态随机分布变量 a 和 6 的二元密度函数。等式 4. 11表 
明,我们现在关注的是当 - W ； a 时， M 和€的联合密度函数。而该条件则 
恰好是等式 4. 8中说明的，将有观测工资与没有观测工资的人群分开之条件。 
马黛娜 ( Maddala ， 1983: 76) 将这部分似然函数化简 得到： 




log 




- rjiyi — X^Y 


+ log < 2 。之 2 (M — W# — 多 (y — X^))) 




[ 4 . 12 ] 
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其中允是汉和6 协方差的平方。 

完整的对数似然函数则是等式 4.12( 所有有工作的个案)和等式 4. 8( 所有 
没有工作的个案)的加总。为了辨识模型，《和€的相关系数必须为0,且必须存 
在一个变量，它在 X 中但不在 W 中。 

尽管顺序两步模型在此处不再适用，但似然函数仍包含未选择个案和被选 
择个案的部分。而其对数似然函数则与等式 3. 10中的基本选择性样本模型类 
似。其复杂性来源于我们处理了两个内生性的变量，其中一个为截断变量。自 
格朗纳 （ Gronau ，1974) ，刘易斯 （ Lewis ， 1974) 和赫克曼 （ Heckman ，1974) 之 
后，使用这类对数似然函数的模型被扩展应用于劳动力供给问题。正如马黛娜 
( Maddala , 1983:200— 202) 所言，它也可以被很容易地扩展至截断和样本选择 
性问题。 



第 5 章 I 应注意的问题 


本书的前几章介绍了删截、选择性样本和截断数据模型。毫无疑问，自 
20世纪70年代末期以来，这些模型在社会科学研究中就开始被广泛地使用。 
然而近年来却有证据表明这些方法本身亦存在问题，尤其是赫克曼模型，受到 
了大量的批评。尽管许多方面仍无定论，但显然，我们在使用这类模型时应更 
加谨慎——如标题所言，本章讨论删截模型和选择性样本模型在实际应用中的 
三个重要问题。首先是其对分布假设的敏感性;其次是赫克曼模型的辨识问 
题;最后我们将讨论评估研究中选择性样本模型的运用。我们将不仅说明方法 
存在的问题，而且提供解决问题的建议或可使用的替代性方法。最后本章将以 
一系列指导作为小结，我们希望其可避免这些可能的缺陷。 


对分布假设的敏感性 


异方差 

异方差，或者误差项的非常数方差问题，在删截模型和选择性样本模型中 
比在 OLS 回归中更重要。这是因为在异方差的情况下，最小二乘估计量虽然不 
是有效的，但却具有一致性。而删截模型和选择性样本模型的估计量却既不一 
致也不有效 ( Amemiya ， 1984:23)。其解决办法是“对异方差的本质做一些合理 
假设” ( Maddala ， 1983:179)「 13 」。换言之，我们根据异方差的函数形式，将对数 
似然中的 a 写作可观测的变量的函数。伊莱亚森展示了在异方差时误差项的正 
态分布假设 ( Eliason ， 1993: 28— 34) 和截断正态分布假设 （ Eliason ， 1993： 63— 
66) 下可做的调整。马黛娜 ( Maddala ， 1983: 180) 则建议对丁 obit 模型中的误差 
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项假设: 


卬 =(7+^) 2 

此时 z 为向量 x 中的部分或所有变量，而 y 和》则是需要估计的参数 6 我们用 
其替换式子 2. 15和黾表达式中的 L 

非正态性 

样本选择偏误方法本身(与其具体执行过程相区别)并不对分布进行严格 
假设(见 Heckman & Robb ， 1986:57—63)。例如赫克曼原始两步估计量只要 
求 U ) 选择式的误差服从正态分布;以及 ( b ) 结果变量条件期望等式的误差是选 
择等式误差的线性形式 （ Olsen , 1980:1817)。然而这些标准方法的执行过程 
(两步骤方法或最大似然估计法)却需要对结果等式误差以及两误差联合分布 
(如二元正态分布)进行假设。 

删截模型和样本选择模型中的非正态性具有极大的潜在危害。尽管 OLS 
估计量在非正态条件下也是一致的，但选择性样本模型和删截模型的估计量则 
不是。戈德堡 ( Goldberger ， 1983: 79) 测量了 Tobit 模型中一系列对称但非正态 
的误差分布，得出的结 论是: “一般样本选择性偏误的修正模型通常会对偏离正 
态性十分敏感。”更一般的，选择性样本偏误修正方法的研究者奧尔森 ( OUen , 
1982) 指出: “最大似然估计方法由于对回归残差的总体分布假设过于敏感，因 
而不具备优良特质。” 

既然非正态性是潜在的如此严重的问题，则我们应如何对其进行处理呢? 
主要有两种办法:若我们有依据为误差项假设一个已知的参数分布，则我们可 
将该假设分布纳入模型;而若误差分布是完全不可知的，则我们应使用半参数 
方法。下面我们分别介绍两种方法。 

关于非正态误差的最直接的参数方法，是最大似然估计法，其中我们直接 
定义误差项的分布。马黛娜 ( Maddala , 1983:187—190) 列举了非正态 Tobit 模 
型的两个简单例子。其一是假设误差项服从对数正态 分布， 此时模型的对数 
似然函数与一般模型的大致相同，我们只需用 Inb ) 替换力并使用域值的对数 



形式即可。其二是假设 M 为指数分布，其密度函数和分布函数皆为非常简单的 
形式。 Tobit 模型由于只涉及单变量分布，因而相对较易扩展到非正态分布的 
形式。正如格林所指出的 ( Greene ，1991:588) ，生存分析中使用的加速失效时 
间模型实为删截回归模型，但其通常具有非正态的误差分布。典型的分布有韦 
氏分布 ( Weibull ) 、对数逻辑斯蒂分布 ( log - logistic ) 、 Gompertz 分布等 ( Allison ， 
1984) ，因而软件可以较容易地估计非正态 Tobit 模型。 

对于最大似然选择性样本模型来说，情况则更为复杂，因为我们需处理选 
择式和结果式两项误差的二元分布。李 （ Lee ，1993) 给出了一个操作性的例 
子。原始赫克曼 Probit - OLS 方法要求选择等式误差的正态性。然而在奥尔森 
( Olsen , 1980) 早期工作的基础上，李 （ Lee ，1983) 却说明更为灵活的两步骤方 
法可以估计非正态误差模型(尽管我们需要对其分布做出具体假设）。他的模 
型相当简单 :先在 假设误差项分布的基础上计算选择模型，然后计算预测概率， 
接着找出这些预测概率的逆正态分布函数(也就是计算代入中 （•） 能得到预测 
概率的值=力），最后用，计算正态密度和分布函数，以估计 A ,。 

这在选择等式的结果多于两类时——即在所谓的多项选择模型中，也非常 
有用。例如，假设我们关注四类学校中学生的数学成绩。我们拟合一个选择等 
式来解决这一问题，其中包含四个学校类别 （m = 1 K 4)，而在结果等式中，学 
生的数学成绩作为因变量是在四类学校中被分别观测的。李的方法是使用多 
元 logit 回归来估计学校的选择问题，即计算学生进入每一学校的概率，再用其 
计算、1 K 4。 这些数值会被用于估计相应的七，然后被用于四项 OLS 
回归 [14] 。 

事实上，李 ( Lee , 1983) 的方法比我们的介绍更具一般性。它不仅允许选择 
等式误差 e ， 同样也允许结果等式误差 W 为非正态分布(但需为已知分布）。此 
时逆正态分布函数能将 e 和《转化为正态的，并使其联合分布为二元正态的。 
李 ( Lee ，1983) 和马黛娜 （ Maddala ， 1983： 272—275) 对此进行了详细的论述。 
这使我们可以使用最大似然估计法。由一般选择等式和结果等式 出发： 


z* = W f ia + e % 


[5. la] 
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若 <0，则4 = 0 
若 2：,* > 0，则 = 1 

y * = + Ui [5. lb ] 

若 A = 1，则乂=3^ 

若之 i = 0,则 y 无观测 

假设€和《的相关系数为卜现在假设 W 的密度函数为 gU ) 而累积分布函数为 
G ( w )， 则 e 的累积分布函数为 FG )。 F 和 G 不服从正态分布。若设标准正态分 
布函数的逆函数为，则我们引入新变量，，使 ： 

e * = ^ -1 [ F ( e )] 

这即为我们上文描述的转化过程 :找到 一个值，使其代入标准正态分布函数时 
可得到概率值 F ( e )。 对仅进行同样的转化 ，有： 

，和 〆 皆为标准正态分布。而其二元分布 

B{^[F(e)], ^[GCm)], p) 

由于^和 〆 的正态性，会服从二元正态分布。我们简单的将上述表达式代入 
式 3. 10的选择性样本模型，则用最大似然法估计等式 5. la 和 5. lb ， 有： 

L = 2； l^gCl - FWM + 2 hgigLCy - X ^/ aJ } [5.2] 

0 1 

+2 log 由 『 _ i [ f (心] ngy- 尤贼]} 

此处 F ( W ^) 是 e 小于的概率，而 Gb - X ^ S )/^ 则是 u 小于(^―尤的/%的 
概率。最后一部分中的计算当代入少（ •） 可以得到相同概率的标准正态分 
布的值。若 e 和 u 为正态分布，则可化简为式 3. 10,因为 g 是正态密度函数 , F 
和步相同，最后等式5_ 2中的 F 和 G 都能与级- 1 抵消。实际上，该方法可以非 
常灵活的转化非正态分布的误差项，使其可用于删截模型和选择性样本模型的 



一般方法(尽管在一些情况下，我们需要引入一些附加的限制条件，使得模型估 
计的误差处于我们所选择的特殊分布允许的范围内）。 

若误差项的分布是未知的，则我们应使用半参数模型。在赫克曼方法中， 
我们曾估计向量《，并用其找出这样一个表 达式： 

E (结果等式误差 | 选择等式误差 > 灰心 ） 

纽维尔、鲍威尔和沃克 ( Newey ， Powell , Walker , 1990) 说明了两种估计 o ： 的 
半参数方法，以及两种以 a 的估计值为基础，在结果等式中估计0的半参数方 
法。然而如马黛娜 ( Maddala ， 1992: 56) 所言，这些非参数方法还比较初步，其实 
际运用仍较罕见。所以本书不再赘述这些估计量的推导过程，有兴趣的读者请 
参考纽威等人的著作 ( Newey 等，1990)。科斯莱特 ( Coslett ，1991) 也给出了选 
择性样本模型的一种非参数 估计; 鲍威尔 ( Powell ，1984) 则提供了非参数估计 
的 Tobit 模型。而李则论述了删截模型和选择性样本模型的一般非参数 
估计_。 

鉴于这些模型的一般估计量对偏离正态性和同方差的敏感性，因而对这些 
假设的检验显然是非常有必要的。学者们提供了一些这方面的方法（如 Lee 
and Maddala , 1985)。有一类对正态性和同方差的偏离检验是针对特定假设进 
行的。切希尔和艾利时 (Chesher & Irish , 1987) 提供了一组非常有用的检验方 
法。而这些检验方法并不需要设定异方差和非正态分布的具体形式。例如它 
们只是根据偏度和峰度来建立标准化的正态性检验，在删截模型中，由于潜在 
变量只能被部分地观测，因而对标准化残差项的检验也不是以直接观测为基 
础的。 

对其方法感兴趣的读者可以参见其论文。其基本思路是检验潜在变量 V 
的标准化(均值为0、标准差为 1) 回归残差的估计分布矩，并与正态分布假设下 
其应有的值，也就是准正态分布的矩相比较。该检验主要有三 步:首 先是在 
〆 仅被部分观测的基础上计算标准化残差;然后是计算这些残差与正态分布残 
差的矩的差值(这些值被称为矩残差，最多会有四项矩 :均值 、方差、偏度和峰 
度）;最后进行一项评分检验，以考察该差值的显著性，或者更准确地说,是检验 
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残差的观测分布与正态性假设下的分布之无差别的零假设。同方差检验的方 
法也遵循类似的原理。 

这些假设可以被简化为一个简单回归，因而很容易计算。在同方差检验 
中，前两项“矩残差”是必要的，而在正态性检验中，我们则需要计算总的四项。 
它只涉及观测值，解释变量以及 )3 和〃 的估计量，所以并不复杂(在附录 B 中 
我们介绍了计算方法)。这些矩残差和解释变量一起构成新矩阵只。我们用该 
矩阵对向量一进行回归，则被解释的平方和可用于检验零假设(同方差或正态 
性)。我们只需做一个简单的卡方检验即可。附录 B 详细解释了该方法。博 
拉、嘉可和李 ( Bera，Jarque & Lee , 1984) ，以及戴维森和麦克卡农 (Davidson & 
Mackinnon ) 也提供了正态性检验的类似方法。 

模型辨识和稳健性 


许多学者(如 Little , 1985) 都意识到在原始 probit - OLS 模型中依赖非线性 
来完成模型辨识所可能带来的问题。如伯克和雷指出的一系列由此产生的 
问题： 


典型的结果是高方差的估计量。而真实(结果)等式中风险率指标与其 
他回归量之间的多重共线性也是一个常见的问题……最后，若无法解释选择 
过程中的大部分方差……则风险率(逆米尔斯比率）的方差将会很小……(这 
将导致)真实等式中与截距项的高度相关 。 （Berk & Ray ，1982:386) 

杜安、曼宁、莫里斯和纽豪斯 （ Duan ， Manning , Morris &• Newhouse , 
1984： 288) 给出了多重共线性的一个例子。他们发现逆米尔斯比率和结果等式 
中的其他解释变量间的多元相关平方 i ? 2 在样本总数9中超过了 0. 8。而在对 
哈根和帕克 (Hagan & Parker ) 的讨论中，我们注意到逆米尔斯比率系数的标准 
误已经接近于其系数本身，因而其对结论最明确的影响就是将常数项降低至错 
误值的约2/3。 






斯托增伯格和雷利 (Stolzenberg & Relies , 1990) 的蒙特卡罗研究，发现即 
使在选择式误差和结果式误差的二元正态分布成立时，赫克曼两步骤方法也存 
在严重的问题。使用严重删截的(90%)500个模拟个案，他们发现 :赫克 曼方法 
在相关参数估计的偏误和准确性上与 OLS 回归一般无异。他们由此推断，赫克 
曼方法在测量和修正样本选择性偏误中作用微小，不宜被经常使用。 

斯托增伯格和雷利的文章对使用赫克曼方法修正样本选择性偏误的倾向 
敲响了警钟(见 Land McCall , 1993)。然而其结论与尼尔森 ( Nelson ，1984) 
的早期蒙特卡罗研究大不相同。后者认为赫克曼两步骤技术的问题可以很容 
易澄清。 

尼尔森的文章比较 OLS 回归，赫克曼两步骤方法，以及最大似然估计法在 
修正选择性样本偏误中的作用。他特别关注各方法的效率(参数估计量的方 
差），提出了与伯克和雷 (Berk & Ray ，1982) 及其他许多研究者相同的问题。在 
误差服从二元正态分布时，以下三项重要因素会影响赫克曼估计量的 表现： 

1. 误差项之间的相关系数^ 

2. 两列解释变量 X 和 W 之间的相关性 

3. 样本删截或选择的程度 (z = l 的个案比例） 

无论是尼尔森的研究，还是斯托增伯格和雷利的研究，都是将第三个因素 
固定，而使另外两个因素在各个模拟之间变化。在后者的研究中，样本的极大 
选择性(仅有10%的样本被选择)使 OLS 优于两步骤方法，因为在其他条件均 
等的情况下，它使后者的估计量在很大程度上失效。这是由于两步骤模型估计 
量的效率取决于用于修正样本选择性偏误的逆米尔斯比率与结果等式中的 
其他解释变量的相关程度。在杜安 （Duan et al . , 1984) 等人的研究中，这项相 
关被表示为记，即 HX , 的测定回归系数。在因素三，即删截或样本选择的 
程度一定时 ，茫 的大小取决于因素二。 

假设 X 和 W —致，则我们依赖 probit 的非线性来辨识结果模型，是这些 
变量的非线性函数。但如果这些变量有限（即删截或样本选择很严重的情况 
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下），则其线性函数会逐渐逼近非线性的1。换句话说，当样本选择性问题越加 
严重时，米尔斯比率会逐渐成为其构成变量的线性函数。因此，在 X 和 W 的相 
关性确定时， F 随样本选择性的极端化而增加。这会损害两步骤方法(及最大 
似然法)相对于 OLS (不适用米尔斯比率)的效率。 

第3章讲到，在以下任何一个条件得到满足时， OLS 估计量是无 偏的: 
( a ) 误差相关性 P 为 0;( b ) A ; 与结果等式中的解释变量不相关 CR 2 = 0)。 

若两项条件均不满足，则 P 或庐的增加(取决于因素二和因素三)会导致 
OLS 系数偏误的增加 ( Nelson ， 1984:193)。因此修正样本选择性偏误的需求更 
大。但是我们已经看到，任何非零的只 2 都会导致两步骤模型(及最大似然估 
计)的效率的降低。因而广义看来这是一个两难的 选择: 两步骤估计量是一致 
的，而 OLS 估计则 不是; 但前者的参数估计量的方差更大。这同样建议我们应 
该谨慎地使用两步骤方法来估计 Tobit 模型，尤其是当两个等式中的解释变量 
相同的时候 。表 2. 2说明相对于 OLS 和最大似然估计，两步骤 Tobit 模型的方 
差更大。 

但斯托增伯格和雷利 (Stolzenberg & Relies ，1990) 关注这些估计量的效率 
而非准确性。由于 ^ 关 0 且记參 0, 这里不存在任何无偏估计，尽管两步骤估计 
量具有一致性。一致性是一种大样本特征，而斯托增伯格和雷利仅使用5⑻个 
个案的样本，而且其删截率(未选择率)达到90%，则其结果等式实际上只使用 
了 50个个案。在这些条件下，我们当然不指望两步骤模型估计量有多么准确。 
但斯托增伯格和雷利论文中的表4还说明，只要^或者单个 x 与 w 之间的相关 
系数，两项之某一项超过 0 . 5,则两步骤模型的偏误小于 OLS 模型。在更大样 
本或不如此严重的删截数据情况下，模型的相对表现还会更加明显。 

两步骤和最大似然方法的估计量的效率在^很低而 i ? 2 很高时最小。总的 
来说，最大似然估计的^和^比两步骤模型的估计量要更有效率。特别的， 
“ OLS 偏误最大之条件，恰好也是最大似然估计对两步骤估计的优越性最大之 
条件 ( Nelson ， 1 984 :1 95 )。”尽管最大似然法比 OLS 估计量的方差要大，但其差 
异一般而言却较小(除非是记特别大的情况，如 >0. 9)。因此，只要 OLS 有偏 
(且不一致），则最大似然估计就优于 OLS 估计和两步骤估计。 
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评估研究中的样本选择模型 

在劳动力市场项目的评估研究中，选择性样本模型受到了最多的批评 
(Fraker Maynard， 1987； Lalonde， 1986)。这是因为此类项目很少使用随机 
分配，因而用以纠正选择性偏误的非实验估计量不能捕捉真实的(更准确地讲， 
是以随机分配为基础的)项目效应。这要求使用随机对照实验来评估此类项目 
(Ashenfelter Card, 1985； Barnow, 1987)。在许多文章中，赫克曼都提到非 
试验方法的缺陷是由于选择性样本模型的错误使用造成的 :这或 者是由于对样 
本本质的错误认识，或者是因为纳入了不必要的或过于严格的假设。在再分析 
中，赫克曼、霍兹和戴伯斯 (Heckman，Hotz Dabos，1987) 以及赫克曼和霍兹 
(Heckman & Hotz，1989) 的文章都证 明:这 些非实验方法确实能给出与随机分 
配方法非常近似的结果。 

由这部分观点看来，这一命题应关注以下 两点: 首先，评估研究及其他领域 
内的选择性偏误修正模型绝不止现有的这些 （Heckman Robb, 1986； Little 
^ Rubin, 1987); 其次，合适的方法应由数据和我们观察到的现象所蕴含的社 
会过程来决定(例如受训者怎样被选择)。我们举两个例子。 

若我们以考试成绩来测量两所学校 A 和 B 的效率。若数据为截面数据，则 
用最大似然法估计选择(学生进人哪类学校)和结果(进入某类学校后的考试成 
绩)等式是较合适的方法。若我们的数据给出两个时点的考试成绩，即学生在 
进人学校 A 或学校 B 之前的成绩以及在校内待过某段时间之后的成绩，则要修 
正选择性偏误，首先应写出第 Z 位学生在第 〖次 考试中的成 绩为： 

yt = pX k +yzi + u k ,u A = ^ + v k 

而学生参与的选择等式为： 

Zi = aWi + €i , €i ^ $i + Si 

此处 2 = 1 表示学生进人学校 A ，而 z = 0则表示学生进人学校 B， 对于£ = 1的 
所有学生， z = 0。 由于共同因素 f 的存在，因而出现了样本选择性偏误。假设 
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的的 均值为0,且方差为常数，且与 e 和0的所有值独立。则取首次差 
异，可以消去 e 和 M 之间的 相关： 

ya ~ PCXs — ) + yzi + 一 u a 

= /?(X l2 — Xn ^ -\-yZi~\- Va — 邛 1 

则式中的误差项与其他所有解释变量独立，其均值为0,具有常数方差。因此， 
我们用两时点上解释变量的差异以及学校类型的虚拟变量对两时点的考试成 
绩差异进行回归。7即表示在一类学校、而不是另一类学校的效应。很显然，我 
们可将 f 看作遗漏变量，它是各学生特有的、不随时间变化的特质，既影响其学 
校选择，亦影响其考试成绩。当我们取考试成绩随时间变化的值时，这项效应 
消失了。赫克曼和霍兹 (Heckman & Hotz ) 基于对有观测的时点数目的考虑扩 
展了该模型。 

另一处理贯穿本书的这类截面数据的办法为杜宾 ( Rubin ，1977) 的混合模 
型方法(参见 Land McCall ， 1993)。杜宾在处理因变量的无填答问题时引入 
该方法，而由于无填答可以是多种样本选择性问题，因而该方法的应用范围理 
论上更广。杜宾用贝叶斯方法，在假设已选子样本和未选子样本之因变量分布 
参数的关系基础上，计算结果估计中可能的误差。换言之，研究者首先猜测或 
假设因变量在样本删截部分的分布，联合其对被选样本中因变量分布的认识， 
则对总体样本的因变量分布有所了解。该方法检测总体样本分布对未选择样 
本分布假设的敏感性。正如兰德和麦克科尔 (Land & McCall ，1993:302) 所指 
出的，不同于选择偏误模型对选择过程的假设和拟合，相反的，混合模型方法对 
因变量的未观测分布进行假设。 

这些假设被纳入混合模型，而解释变量的完全观测信息可用于形塑这些假 
设。根据每个假设，可计算一个贝叶斯预测概率区间（类似于置信区间），该类 
区间是广义上的一般置信区间。但假设所基于的预设信息也有可能并不清楚。 
在兰德和麦克科尔的例子中，假设未填答样本的均值与填答样本相同，但其方 
差更大。若我们有强烈的预设信息表明这些假设，或者结果对不同假设具有强 
烈的敏感性，则这些假设有很大的价值。但严重的问题在 于:我 们并不总是有 
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这样强烈的预设信息，而结果也并不总对不同假设敏感。这也说明，该模型只 
能用于测量未填答或选择性偏误的严重程度，但并不能对其进行修正。 

删截模型和选择性样本模型的使用指南 


我们将大略说明删截模型和选择性样本模型使用中应注意的事项。首先 
应考虑解决问题的适合模型。若数据还未收集，则我们应考虑最小化选择性样 
本问题。如在评估研究中，对控制组和反应组的参与者采用随机分配的原则。 
若数据已经收集完毕，则我们应从数据允许的分析方法中选择最合适的那个。 
若为历时性数据,则可使用上文介绍的赫克曼和霍兹 (Heckman & Hotz , 1989) 
模型。若数据是截面的，则可使用第2章到第4章介绍的方法。 

样本规模是一个重要的问题。本书讨论的多个估计量的优良特质都与大 
样本相关，如果样本很小，那么我们必须承认这类方法并不适合。因此，在仅使 
用本书方法才可解决的重要问题的研究中，研究设计必须保证有大样本。 

若存在合适的大样本，且我们决定使用本书介绍的方法，则第一步应检验 
同方差和正态性。我们可以使用切希尔和艾利时 (Chesher & Irish ，1987) 的方 
法，或使用其他的替代性方法 （Bera et al . ，1984; Davidson MacKinnon , 
1984)。 切希尔和艾利时详细介绍了在 Tobit 模型中怎样检验同方差和正态性， 
而我们可以将其扩展到选择性样本模型，但这时我们将检验二元正态性，因而 
其扩展形式更复杂。但在选择性样本模型中，我们可使用其方法对每一步 
骤一选择和结果分开检验。在选择等式中检验正态性尤为重要。以 
probit 独立估计该等式是使用切希尔和艾利时检验的最简单的方法。 

若不满足同方差，则有必要对方差假设一个函数形式。类似的，若误差项 
不是正态分布，则我们应为其假设一个分布，或使用半参数模型。而当这些假 
设被满足时，对于删截回归模型，则 Tobit 估计量是可接受的。但对于选择性样 
本模型，我们应该先用 probit 得出逆米尔斯比率，再在结果等式中用解释变量 
对其进行回归。若记接近于0,则结果等式可使用 OLS 估计，但如果并非如 
此，则我们应使用最大似然法估计两步骤模型。若最大似然模型中的 p 接近于 
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0,同样用 OLS 回归更合适。这是因为 OLS 估计中的与最大似然估计值接 
近，但其方差更小(特别是在 i ? 2 很大时)。所以在选择性样本模型中，若尺 2 或 p 
接近0,则使用 OLS 方法;否则使用最大似然法。若可以使用最大似然法，则两 
步骤模型不具备任何优势。 

最后一点是 :怎样 判断应使用删截回归 ( Tobit ) 还是选择性样本模型？马黛 
娜 ( Maddala ，1992:54) 提出了该问题，认为事实上 Tobit 模型在其大致所有的 
应用中都是不适合的，包括其最早的托宾的应用 ( Tobin ， 1958)。他认为^值本 
身的限制并不足以构成使用该模型的条件，相反，我们应该询问观测组形成的 
原因。若它是我们研究对象的某些决定带来(如不进行奢侈品消费）的，则删截 
模型并不适合。此处我们真正需要的是选择性样本模型^一~■先单独拟合选择 
过程，再估计因变量的条件期望。而另一种情况则是^值的限制由外生性变量 
导致，如数据收集和记录(如本书开始的考试成绩例子），则毫无疑问删截模型 
是适合的。 

当，为个体选择的函数时，使用删截模型还是选择性样本模型取决于我们 
对潜在变量 v 的本质的理解和解释。如我们假设 y 是渴望受教育的年限。我 
们假设对于完成最低年限后仍留在学校的人而言，其观测教育年限^即为。 
但对于那些在最低年限退出的人，其渴望年限小于或等于最低年限。若我们关 
注渴望年限，则应先考虑其在最低年限后是否留在学校的决定过程，删截模型 
这时就是适合的。而另一方面，奢侈品消费的潜在变量为消费愿望，它可以为 
负数。此时马黛娜可能是正确的，因为我们需要对是否消费和消费额度分别进 
行估计。这并不是方法论的问题，而是对问题和理论的理解的问题。 

结论 


本书介绍了当因变量存在删截、样本选择性和截断问题时常用的分析技 
术。我们将其与其他方法相联系，以举例说明基本方法怎样被扩展到不同的 
方面。在本书结尾，我们对模型的谨慎使用做出提醒。本书所讨论的估计量 
的优良特性只对大样本有效，且这些模型在违反正态性和同方差假设时，远 
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不如 OLS 模型表现得稳健。但选择性样本和删截问题在社会科学中非常普 
遍，本书用采纳这类技术的许多社会科学论文进行举例和检验。尽管我们需 
要谨慎使用这些方法，但毫无疑问它们能对大量问题提供有价值、有意义的 
解决办法。 



附录 1 I 截断正态分布变量的期望值 


该附录说明截断的正态分布随机变量之期望值的标准结果。令 《 为均值 
0,标准差 a 的正态分布随机变量，则当 a 自数值 m 被截断时，其期望 值为： 

A 1 由上截断 

u ^ m 的概 率为： 

m 

巾 (?)=1 士 exp(_ " 2)tk 

而《<饥时《的条件期望 E( M | M < m ) 为： 




A 2 由下截断 


u > m 的概 率为： 

— ^^exp( — ^ 2 /2)d^ = 1 —^(― ) 

L ^ Ka } 

而 M > m 时 m 的条件期望 E ( m 丨 W > m ) 为： 


1 一少 （ m / a ) 
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由于正态分布的对称性，式子 A 1 和 A 2 也可由另一种方式写出，因而导致 
混淆。我们的观点是，正态分布的对称性此处意味着 两点: 首先， 1— = 
0 ( — m / a ) ?其次， jiim / a ) = < f >(— m / d ) 0 例如我们定义 m = c — X '#，则 E(w | w 
可 写作： 



后者则是我们在 Tobit 模型中使用的项。同样的， E { u \ u ^ c - X ；/?)可以 
写作： 




附录 2 I 切希尔和艾利时 (Chesher & Irish ) 
的正态性及异方差检验 


使用切希尔和艾利时的检验需要估计四个矩残差， P m > ， m 等于1到4。 
另 A 为表示是否删截的变量 (A = 0表示删截），并且岛 = X > Ar ， 且 AOU 表示 
逆米尔斯比率。则 Tobit 模型的4个矩残 差为： 

P ⑴ =—(1 — Zi)X(ki) +Zi (-^- ~ki^j 

e m = {1 — zdkiXiki) + Zi ( 予一九） 一 1 

e i3) =— (l — Zi) (2 + kl)X(ki) + — ki) 

e {i) = a-z i )m t +k 3 t n(k t )^z^(j : -k i y -3~ 

实际中，我们用 /? 和 〃 的估计值来计算这些数值。 

为检验正态性，矩阵 r 的元 素为： 

n e i2 \ e i3 \ e iA) 

若 X 包含常数项，则可被省略。在实际运用切希尔和艾利时的方法检验 
正态性时，我们对每一项观测都计算的值，并以模型中的每一个变量不 
(包括常数项），々 = 1，…， K ， 乘以 f ⑴的值来构成一组新的变量。因而我们会 
得到有 K + 2 列的新矩阵 i ?。 然后我们用一组向量一对 i ? 进行回归，得到解释 
平方和。拉格朗日乘数服从卡方分布，且在该例中自由度为2。若拉格朗日乘 
数超过自由度为2的卡方值，则我们应拒绝正态性的零假设。 




异方差检验遵循非常类似的方法。切希尔和艾利时同样给出了 probit 模 
型的1?矩阵元素。这对我们非常有用，它可以为选择性样本模型的选择等式提 
供正态性检验。但有一点值得注 意:当 样本量很小时，该检验不可信。它只在 
样本量相对较大时适用。 
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注释 _ 

[ 1 ] 我们假设即使^有上限，也可因为估计需要将其忽略。 

[ 2 ] 在格朗诺 ( Gronau ，1974) 和刘易斯 （ Lewis , 1974) 早期工作的基础上，赫克曼 （ Heckman ，1976) 
最先提出这一结构并发展了这一两步骤方法。 

[ 3 ] Tobit 为 Tobin probit 的缩写。 

[4] 例如，离散变量^的期望 值为： 

^Zipriz = Zi ) 

而连续变量 Z 的期望 值为： 

I yfb^dy 

其中 / 表示密度函数。 

[5] 关于一致性和渐进无偏性的区别，参见达利密斯 ( Dhrymes , 1989:86—89)。 

[6] 另一问题涉及对数似然函数的复杂性。例如，若我们定义的模型中包含非常复杂的多元积分，则 
最大似然估计法可能在事实上难以实施。 

[7] 这四项偏导皆在假设 c = 0的情况下获得。但若该假设不成立,则除式 2. 20 c 外，其他几项偏导 
并不发生变化。对于式 2. 20 c ， 我们应考虑&的变化影响某观测值取非零阈值 c 的概率的局部 
效应，即在式中加入一项一多 ( z ) 戽/〜 

[8] 此处我们使用了微分的乘法法则。即在 y = fU ) gix ) 时,: y 对: r 的导数等于 fix ) g \ x ) + 
/ U ) g ( x ), 其中 ' 表示函数的导数。该分解式仅在 C = 0时成立，若该条件不满足，则我们应在 
式中加人一项，表示％的变化对观测值取非零阈值 e 的概率的影响。 

[9] 由于霍诺汉和诺兰 (Honohan Nolan , 1993) 在其 Tobit 模型中并未报告误差项的方差估计，因 

而我们无法计算收入对拥有金融资产的概率的偏导数。 

[10] 在第一章我们已经部分讨论过这一问题。斯托增伯格和雷利 ( Std Z enb e rg & Relies ， 1990,表 1) 
为我们列举了美国社会学评论 (American Sociological Kra ' extO 杂志中使用赫克曼技术修正选择 
性样本偏误的 文章。 

[11] 在因变量为收人的情况下，我们常令，为收人的转换形式，如其对数。 

[12] 这是一个简化模型，它假设工作资源是充足的，因而使得个人是否获得工作完全取决于其自身 
选择 

[13] 此处我们讨论的是潜在变量，的误差项的异方差。应注意将其与第三章中讨论的赫克曼两步 
法里结果等式中的异方差问题相区别。 

[14] 此时若使用本章稍后将讲到的一般化方法，仍可构建对数似然函数。李的方法的稳健性在用于 
多项选择模型时遭到了 Schmertmann 的质疑 (1994) ,尽管这项批评在仅仅使用二元选择时并不 
适宜。 

[15] 计量经济学杂志，以及格拉格 • 邓肯 (Greg Duncan ) 编辑的《未设定误差分布的连续与离散经济 
计量学》，都讨论了删截回归模型。 
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40年来，经典的线性回归模型_直是定量社会科学研究者方法论中重要的组成部 
分。目前已有的关于定量方法应用的书籍，涉及许多关于线性回归的各种延伸话题，例 
如 logit 、 probit 、 事件史 （event history )、 广义线性 {generalized linear )、 广义非参数模型 
(generalized nonparametric models ) 和处理删截、样本选择、截断和缺失数据的线性回归 
模型 ( linear-regression models ) ；此外,还包括许多其他相关的模型,例如方差分析、协方 
差分析、因果模型、对数线性模型、多重比较和时间序列分析。 

经典回归的主旨是估计因变量在解释变量特定值域之上的条件均值。当回归假设 
成立时，这一方法是有 效的； 但当出现非标准情况时,它就会失效。（关于线性回归假设 
的详细讨论,见本丛书第一辑“理解回归假设 ”， William Berry 著)其中两个是正态性假设 
和方差齐性假设。通常的社会科学数据无法满足这两个关键的假设。例如 ，( 条件)收入 
分布一般不是正态的，并且首席执行官的年度分红分布随着公司规模的增大而上升，这 
意味着存在异方差性问题。这正是分位数回归可以处理的问题，因为它放松了这些假 
设。另外，分位数回归为研究者提供了一个(无法从经典回归中获得的）新视角，研究解 
释变量对响应变量分布中位置、尺度和形状的效应。 

分位数回归的思想并不新颖,事实上它起源于1760年，当 时一 个游历学者克罗地亚 
基督徒 Rudjer Josip Boscovich —他拥有许多头 衔:物 理学家、天文学家、外交官、哲学 
家、诗人和数学家一来到伦敦讲授他尚未成熟的中位数回归方法。然而，这一回归方 
法计算的复杂性直到最近依然是一大挑战。由于今曰快速的计算功能和统计软件的广 
泛应用(如可执行分位数回归程序的 R 、 SAS 和 Stata ) ，使得拟合分位数回归模型变得更 
加容易。但是，至今我们仍未提供任何关于分位数回归是什么的介绍。在本书中， Hao 
和 Naiman 提出了分位数和分位数函数的概念，并阐述了分位数回归模型，讨论了它们的 
估计和推断方法，并通过具体例子演示了对分位数回归估计值(是否转换丨的解释。同 
时，他们也提供了应用分位数回归分析美国1991年和2001年收入不平等的完整例子， 
以此确定这一方法的思想和步骤。本书填补了丛书的空白并且有助于社会科学研究者 
更加熟悉分位数回归。 


廖福挺 



第 1 章 I 引言 


回归分析的目的在于揭示因变量和自变量的关系。在实际的应用中，自变 
量并不能精确地估计因变量。相反，与每个自变量的特定值相对应的响应变量 
是一个随机变量。因此，我们常常使用集中趋势的测量方法，来概括自变量特 
定值域下的因变量变化情况，主要包括均值 ( mean )、 中位数 ( median ) 和众数 
( mode ) 0 

传统的回归分析主要关注均值，即采用因变量条件均值 (conditional mean ) 
的函数来描述自变量每一特定数值下的因变量均值，从而揭示自变量与因变量 
的关系。模型化和拟合条件均值函数 ( conditional-mean function ) 是回归模型 
法大族谱中的核心思想，具体包括常见的简易线性回归模型、多元回归、加权最 
小平方数下的异方差误差模型 (heteroscedastic error ) 和非线性回归模型。 

条件均值模型 ( conditional-mean models ) 具有以下 优点: 在理想的条件下， 
它们可以为我们提供关于自变量和因变量分布关系的完整的和参数的描述。 
另外，采用条件均值模型可获得具有优越统计特性的估计量(最小二乘法和最 
大似然法)，它更容易计算，并且更容易解释。这种模型通过不同的方式被推 
广，从而适用于误差具有异方差性的情况，因此，对于特定的自变量，因变量条 
件均值和条件单位 (conditional scale ) 的模型化可以同时进行。 

条件均值模型被广泛应用在社会科学中，尤其在过去的半个多世纪里，使 
用最小二乘法及其衍化方法对连续型因变量和自变量的关系进行回归建模被 
认为是现代重要的统计工具。最近，分析二分因变量的 logistic 和 probit 模型、 
分析计数因变量的泊松回归模型在社会科学研究中的重要性不断提高。这些 
方法并没有超出条件均值模型的框架 ( conditional-mean modeling framework ) 0 
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当定量社会科学的研究者已经应用更高级的分析方法来放宽条件均值框架下 
的一些建模假设时，这个框架本身却很少被质疑。 

条件均值框架存在先天的局限性。首先，当归纳自变量特定数值下的响应 
变量情况时，这个条件均值模型并不能轻易地扩展到非中心位置 (noncentral lo ¬ 
cations )， 而非中心位置往往正是社会科学研究的兴趣所在。 例如，关于经济不 
平等和流动的研究对穷人(低尾)和富人(上尾）的情况有浓厚的兴趣。教育研 
究者会设法在既定的成绩水平下去理解和减少群体差异（如三层次参照 标准: 
基础、熟练和高级)。这样，对中心位置的强调，长期阻碍了学者采用恰当的技 
术来研究有关因变量非中心位置的课题。而采用条件均值模型来分析以上问 
题是没有效率的，甚至会偏离研究重点。 

其次，这些模型的假设在现实生活中并不总会得到满足。特别是方差齐性 
假设经常落空。另外仅仅关注集中趋势会忽视关于因变量分布的有用信息。 
并且，社会现象中通常会出现重尾分布，从而导致离群值优势。正因为条件均 
值深受离群值的干扰，所以它对中心位置的测量是不恰当和具有误导性的。 

最后，一直以来对中心位置的关注转移了学者对因变量整体分布性质的注 
意力。我们需要跳出预测变量的位置和数值范围对因变量的效应这一框架，进 
而探讨预测变量的变化会如何影响因变量分布的基本形状。例如，许多社会科 
学研究关注社会分层和不平等，这一领域要求深人分析因变量的分布特征。对 
分布特征的描绘包括中心位置、数值范围 ( scale )、 偏态和其他髙阶特性，而不仅 
仅是中心位置。因此，釆用条件均值模型来表述因变量分布与自变量的关系是 
具有先天性缺陷的。关于不平等主题的例子包括工资、收入和财富等经济不平 
等;在学业成绩上的教育不 平等; 在身高、体重、疾病发生概率、毒品上瘾、医疗 
和预期寿命上的健康不平等和由于社会政策而导致的生活质量的不平等。这 
些课题通常采用条件均值框架进行分析，从而忽略了其他更重要的分布特征。 

条件均值模型的替代方法可以追溯到18世纪中期。这一方法被称为条件 
中位数模型，或简称中位数回归 (median regression )。 它解决了一些上面提出 
的关于集中趋势测量方法的选择问题。这种方法用最小绝对距离估计 （ least - 
absolute-distance estimation ) 代替最小二乘估计 （ least-squares estimation ) 。最 



裏分析 


小二乘估计不需要大功率的计算机便可轻松实现，然而最小绝对距离估计必须 
借助强大的计算机力量。所以，直到20世纪70年代后期,当计算机技术融合了 
如线性优化等算法系统时，采用最小绝对距离估计的中位数回归模型才变得 
实用。 

中位数回归模型可以实现与条件均值回归模型同样的 目标: 表述因变量的 
中心位置与一组协变量的关系。然而，当因变量的分布是高度偏态时，均值在 
解释的时候就会受到质疑，而中位数依然保有大量信息。因此，条件中位数模 
型具有更大的应用潜力。 

中位数是一个特殊的分位数，它表示一种分布的中心位置。中位数回归是 
分位数回归的一种特殊情况，在这里第 0. 5分位数被模型化为一个关于协变量 
的函数。一般地说，其他分位数则可以用来描述一种分布的非中心位置。分位 
数概念可归纳为一些特定的名称，如四分位数、五分位数、十分位数和百分位 
数。第个百分位数表示因变量的数值低于这一百分位数的个案数占总体的 
A %。 因此,分位数可以指定分布中的任何一个位置。例如，有 2. 5%的个案数 
值低于第 0. 025分位数。 

凯恩克 ( Koenker ) 和巴西特 ( Bassett ) 在1978年引人分位数回归，将条件分 
位数模型化为预测变量的函数。分位数回归模型是线性回归模型的自然扩展。 
随着协变量的变化，线性回归模型描述了因变量条件均值的变化，而分位数回 
归模型则强调条件分位数的变化。由于所有分位数都是可用的，所以对任何预 
先决定的分布位置进行建模都将是可能的。因而,研究人员可以选择适合他们 
特定研究议题的分位数进行分析。贫穷研究关心低收人人群，例如，在2000年 
11. 3%的社会底层生活在贫穷状态中 （ U , S . Census Bureau , 2001)。税收政策 
研究则关注富人，例如，最富有的4%的人口 （Shapiro Friedman , 2001)。条 
件分位数模型为集中研究人口中的特定人群提供了灵活性，而条件均值模型则 
做不到。 

由于多元分位数可被模型化，所以我们可以更加全面地理解因变量的分布 
是如何受到预测变量的影响的，包括形状变化 (shape shift) 等信息。一组间距 
相同的条件分位数(例如总体中的每5%或每1%)可以描绘除中心位置外的条 
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件分布的形状。这种模型化形状变化的能力是社会不平等研究领域在方法论 
上的一次飞跃。按照惯例，以往的不平等研究并不是建立在模型基础上的，这 
些方法包括洛伦兹曲线 (Lorenz curve) 、 基尼系数 (the Gini coefficient) 、 泰尔熵 
标准 (Theil’s measure of entropy) 、 方差系数和对数转换分布的标准差。 

通过建立在线性优化基础上的算法系统，最小化关于距离的广义测量方 
法，便可以轻松地建立分位数回归模型。因此，分位数回归目前是研究者的实 
用工具。社会科学家所熟悉的软件包则提供了简单易懂的命令来拟合分位数 
回归模型。 

在凯恩克 ( Koenker ) 和巴西特 ( Bassett ) 首次引人分位数回归的 1 S 年后，有 
关分位数回归的实际应用开始迅速普及。实证研究者通过分位数回归来检验 
预测变量对因变量分布的影响。由经济学家 （ Buchinsky ， 1994； Chamberlain , 
1994) 完成的两篇早期实证研究论文，为我们提供了如何将分位数回归应用到 
工资研究中的实际例子。借助分位数回归，他们全面分析了工资的条件分布， 
发现教育和工作经验的回报以及工会成员身份的效应在不同的工资分位点上 
是不同的。釆用分位数回归分析工资的例子不断增加，并且扩展至另外一些话 
题，如工资分布的变化 (Machado & Mata ， 2005; Melly ， 2005)，特定行业内的 
工资分布 (Budd & McCall , 2001) ,白人与少数族裔 (Chay & Honore , 1998) 以 
及男性与女性 (Fortin & Lemieux , 1998) 的工资差距，受教育水平和工资不平 
等 ( Lemieux ，2006) 以及收人的代际转移 (Eide Showalter , 1999)。分位数回 
归同样应用于分析学校的教育质量 (Bedi & Edwards ， 2002； Eide，Showalter 
& Sims ，2002) 以及人口特征对婴儿出生体重的影响 （ Abreveya ， 2001)。分位 
数回归还延伸至其他领域，特别是社会学 （ Hao , 2005, 2006 a ，2006 b )、 生态学 
和环境科学 （ Cade，Terrell &- Schroeder ， 1999； Scharf，Juanes Sutherland » 
1989)， 还有医学和公共卫生等领域 (Austin et al . ， 2005； Wei et al . ， 2006)。 

本书旨在向那些对分布形状和位置的建模方法有着浓厚兴趣的社会科学 
家们介绍分位数回归模型。此外，本书同样适合那些关注线性回归模型易受偏 
态分布和离群值影响这一问题的读者们。该书的写作主要建立在凯恩克 
( Koenker ) 及其同事们的奠基性著作上(例 如: Koenker ， 1994； Koenker , 2005; 
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Koenker &* Bassett ，1978； Koenker & d ’ Orey ，1987; Koenker Hallock ， 
2001; Koenker Machado , 1999) 并作出了两大贡献。在分位数回归估计值的 
基础上，我们发展了基于条件分位数上的形状变化的测量方法。这些测量方法 
为我们提供了关于协变量如何影响因变量的分布形状这一研究问题的直接答 
案。另外，不平等研究常常对右偏的因变量分布采用对数转换方式，来获得更 
好的模型拟合效应，尽管在这种情况下“不平等”代表着初始数值的分布。因 
此，我们发展出一套方法，从对数单位系数中计算协变量对条件分位数函数的 
位置和形状的绝对值效应。 

从我们的研究经验中知道，这本书是为从事实证研究的学者而编写的。我 
们釆用社会科学家熟悉的语言和步骤进行教学，具体包括定义清晰的术语、简 
化的方程式、插图、实证数据的图表和社会科学家熟悉的统计软件的计算编码。 
贯穿全书，我们从自己的家庭收入研究中提取实际例子进行讲述。为了更好地 
介绍分位数回归，我们使用简化的模型设定，在这里，不管是初始单位还是对数 
转换的因变量，其条件分位数函数对于协变量而言都是线性的和可加的。正如 
在线性回归中，我们介绍的方法可以轻松地应用在更加复杂的模型设定中，例 
如交互项和协变量的多项式或样条函数 (spline function ) 。 

本书内容组织如下:第2章从两个方面定义分位数和分位数函数——运用 
分布函数和解决最小化问题。相对于分布矩阵(如均值、标准差），本章还提出 
测量分布位置和形状的分位差方法 （ quantile~based measures )。 第 3 章比较了 
线性回归模型和分位数回归模型 ( QRM ) 的基本原理，包括模型建立、估计量和 
特性。通过特定的分位数参数来建构多条分位数回归方程是分位数回归模型 
的独特性质。我们将展示如何运用最小距离原则 (minimum distance principle ) 
来拟合分位数回归方程。 QRM 假设分布具有单调同变性 (monotonic equivari - 
ance principle ) 和稳健性等特性，这些特性可为我们提供灵活稳健的估计，此外， 
QRM 还具有其他线性回归模型所不具备的性质。在第4章里，我们讨论了分 
位数回归模型的推论方法。除了介绍分位数回归系数的渐近推论 (asymptotic 
inference ) 外，本章还强调自举法 (bootstrap method ) 的实用性和可行性。另外， 
相对于线性回归模型，我们还简短地讨论了分位数回归模型的拟合优度。第5 
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章提岀了多种解释分位数回归估计值的方法。本章超越了协变量对特定条件 
分位数(如中位数或其他非中心分位数)效应的传统检验，主要关注对分布的理 
解 (distributional interpretation ) 0 它阐述了对分位数回归估计值的图像化解释 
和从分位数回归估计值中对形状变化的定量测量，包括位置转移、尺度变化 
(scale shift ) 和偏态变化等。第6章讨论与单调转换因变量相关的话题。我们 
发展了两种方法，从对数单位系数中获得协变量对条件分位数函数的位置和形 
状的绝对值效应。第7章讲述了本书介绍并加以发展的技术的系统运用。在本 
章中，我们分析了美国在1991年至2000年持续并扩大的收入不平等的原因。 
最后，附录提供了执行第7章所描述的分析任务的 Stata 命令。 
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第 2 章 I 分位数和分位数函数 


描述并比较总体的分布特征，是社会科学的本质。描述分布最简单和最常 
见的方法，莫过于寻找代表中心位置的平均值和揭示离散程度的标准差。然 
而，将注意力仅仅局限于平均值和标准差，无疑会让我们忽视其他有助于深入 
挖掘分布特征的重要特性。对于许多学者而言，他们感兴趣的总体多为偏态分 
布，因此均值和标准差并不是测量位置和形状的最佳方法。为了描绘非对称分 
布的位置和形状特征，本章用分布函数 ( CDF ) 的方法介绍分位数、分位数函数 
及其特性，并且发展出测量分布位置和形状的分位差方法，最后将分位数重新 
定义为最小化问题的解决方法。 


分布函数、分位数和分位数函数 

我们可通过分布函数描绘一个随机变量 Y 的分布。分布函数即在给定的 
函数 F Y 中，对于每一个 y 值，当 Y < 5时在总体中所占的比例。图 2. 1呈现了 
标准正态分布的分布函数。分布函数可用作计算3^值在任意区间占总体的比 
例。由图 2. 1可知，仏(0) =0. 5和 F y ( l . 28) = 0. 9。我们可以通过这一函数计 
算所有其他关于 y 的概率。特别有 = 1 — ^0) (例如，在图 2.1 中， 
P[Y > 1. 28] = 1 - 28) = 1 - 0. 9 = 0.1) 和 P[a < Y <6] = F Y ( b )— 

Fy ( a )) (例如，在图 2. 1 中， P [0< Y <1_ 28] = F y ( l . 28)- F y (0)=0. 40)。 分 
布函数最重要的两大特性是单调性(例如，当 M 时， F (^ i )< F (^» 和它 

的极限 lim ^ FC ^) = 0 和 lim _ F(30 = 1。对于一个连续型随机变量 Y ， 我 
们同样可用概率密度函数来表示它的分布，对于所有 a 和6的取值，都有 
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p[a<y<6] 


fydy. 



让我们回到通过位置和离散并不足以充分描述一个分布的话题。假如我 
们知道白人家庭的平均收人 (W) 比黑人家庭的平均收入 (B) 多出20500美元。 
这可以简单描述成形状不变的分布图在位置上的移动(见图 2. 2a 中对应的密度 
函数），因此这两种分布的关系可表示为 F B (y) =F w (y-20500)。 但事实上，这 
两种分布的差异同时体现在位置和形状上(见图 2. 2b 中对应的密度函数)，所以对 
于常数 a 和 cU > 0) ，两种分布之间的关系可归纳为 F B ( y ) = P" (町 一 C ) 。这 
就是当: y 的均值和方差在总体 W 和 B 之间都不相同时出现的情况。对位置和 
尺度 (location and scale) 的测量方法，如均值和标准差，或者中位数和四分位距， 
有助于我们比较两种分布的 y 属性。 

分布越不对称时，需要越复杂的分析方法。对分位数和分位数函数的考虑 
可为我们提供一系列丰富的分析方法。下面我们继续讨论分布函数 F， 对于某 
些总体特征而言，该分布的第 f 分位数可表示为 （ F) [或者当被讨论的总体 
是已知时，可简化为 Q ^]，( F ) 则代表分布函数在 p 点上的反函数 
(inverse) 的值，即存在一个值3；，使得 F(;y) = />。所以，处于 Q 〜值之下的比例 
为 p % 0 例如，在标准正态分布的例子中(见图 2. 1)，因为 F(l, 28) =0. 9,所以 
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Q ca9) - 1.28, 那就是在值 1. 28之下的比例为 ()• 9或90%。 


( a ) 地点变换 



收入 


( b ) 地点和尺度变换 



类似于总体的分布函数，我们考虑对应于一个样本的经验或样本分布函数 
(empirical or sample cdf)。 对于一个包含值: yi ，火，…，： y n 的样本，经验分布函 
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数表示样本值小于或等于任意值^所占的比例。经验分布函数 > 的正式的定 
义为： 

F ( y ) = 样本值小于或等于: v 值所占的比例 

例如，考虑一个包含20户家庭收入情况的样本(单 位:美 元），3000、3500、4000、 
4300、4600、5000、5000、5000、8000、9000、10000、11000、12000、15000、17000、 
20000、32000、38000、56000和84000。由于8户家庭的收人在5000美元以下， 
所以我们有 FC 5000) = 8/20。这一经验分布函数图如图 2. 3所示，包括一个上 
涨部分和几个平坦部分。例如，在5000美元这一点，上涨部分达3/20,这表明 
在该样本中，5000美元出现了 3 次; 而平坦部分则出现在56000美元和80000美 
元之间，这表明在这两点之间不存在其他样本值。因为经验分布函数存在平坦 
部分，所以在某些值上存在多个反函数。例如，如图 2. 3所示，在56000和 
80000之间的 Q (a 975) 是一个存在多种选择的连续统。因此，当我们釆用分位数 
和分位数函数来分析一般性分布时，需要留意以下 定义： 

定义: 一条分布函数下的第々分位数 Q 〜是一组 y 值中的最小值，从而使 
F ( j ) ^ Po 函数 Q 〜 (怍为 p 的函数)正是 F 的分位数函数。 


1.0 


0.8 


I 


0.6 


0.4 


0.2 


f-<!t 

|6 


56000美元与84000美元 
之间的平坦部分 


f^> 

P 

P 

f 




5000美元时上涨部分达3/20 


0 20 000 40 000 60 000 80 000 100 000 

收入 


图13具有嫌跃和水平部分的累积密度函数 
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图 2. 4展示了分位数函数和与之相应的分布函数。由此可以观察到 :分位 
数函数是一条从底端开始的单调非递减的连续性函数。 


累积密度函数 分位数函数 




图 2.4 累积密度函数及其相应的分位数函数 

作为特殊的例子，我们讨论样本分位数 (sample quantiles ) ，它可用作估计 
抽样分布 (sampled distribution ) 的分位数。 

定义: 给定一个样本％，％，…，％，我们将第/>样本分位数定义为相 
应的经验分布函数 P 的第户 分位数，即= <^#00。与之相应的分位数函 
数，就表示为样本分位数函数。 

样本分位数与顺序统计量 (order statistics ) 密切相关。假定样本: yi ，災，…， 
%，我们按其大小从低到高排列，贝! I 表示为: y ( i ) ， " •，： yu ) ，有: y ( i > <: y ⑵ < …< 
>0。有些数值如果出现多次，它们会被重复。顺序统计量和样本分位数的关系 
可简单描述如下 :对于 大小为 n 的一个样本，第样本分位数由細确定。 
例如，在以上的20户家庭收入数据中，第 (4/20) 的样本分位数，即第20百分位 
数，等于 = ： y(o = 4300。 


样本分位数的抽样分布 


样本分位数在大样本中会如何表现，是需要重点关注的。对于一个从某分 
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布中抽取的大样本3^，…，3^ ,该分布的分位数函数为0〜，概率密度函数为 

f=F ， 如 的分布接近均值为 Q 〜、方差为 P(1 ^ P) • /( Q i ) )2 的正态分布。 

特别的，这一样本分布的方差完全由在分位点上估计而来的概率密度决定。这 
种对分位点上的密度的依赖有简单直观的解 释:如 果分位数附近有较多数据点 
(更高的密度），那么样本分位数更稳定;相反的，如果分位数附近有较少数据点 
(更低的密度)，那么样本分位数较不 稳定。 

为了估计分位数抽样的变异性，我们可以利用以上的方差近似值，但这需 
要事先估计未知的概率密度函数。图 2. 5 给我们展示了一种标准的估计方法， 
函数 d 〜在点的切线斜率是分位数函数在 f 点上的导数，同样的，有密度函数 

的倒数 = ^/⑽巧。这一项式接近点 ( P _ h ， Q ^) 和 （户 +九， 
3_)的割线斜率去 （ d _ — &〃>)，尤其当九为极小值时。 


QiP) 



S 2.5 如何估计分位 数函数 的斜率的图示 
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注:函 数在办点的导数(切线的斜率)约等于割线的斜率。 
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位置和形状的分位差测量方法 

社会科学家们熟悉关于中心位置的分位差测量方法，即是中位数(如50% 
分位数)而不是均值(密度函数的第一阶矩)被用作指示偏态分布的中心。 

通过基于分位数的位置允许我们研究更多非分布中心的位置概念。具体 
的，我们可以由此检验特定子样本中的低尾位置(如10%分位数)或者上尾位置 
(如90%分位数)。 

描述分布形状的两大基本属性是尺度和偏态 (scale and skewness )。 尺度 
一般通过标准差测量 得到; 标准差则通过数据值与均值的差的二次函数计算得 
到。对于对称分布而言，解释这种测量是很容易的，但当分布变得高度不对称 
时，对它的解释便站不住脚。同样的情况也出现在重尾分布上。由于许多用以 
描述社会现象的分布是偏态的或者是重尾的，使用标准差来表示它们的尺度便 
会出现问题。放弃使用标准差来捕捉分布的离散程度，我们可以使用选定 P 值 
下的分位差尺度测量法 （ quantile~based scale measure ) ( QSC ) : 


QSC ip) - Q a ~ p) for p <0.5 [2.1] 

我们可以通过0<° ° 25> 和 Q ( °_ 975> 获得总体中间位置的95%分布，或者通过 
和0^>获得中间位置的50%分布(即传统意义上的四分位距），或者任何 
中间部分的100(1 — 2/0%分布。 

QSC 不仅提供了直接有效的尺度测量方法，而且促进了基于模型的尺度变 
化的测量方法的发展(详见第5章)。相比之下，根据由标准差测量的尺度变化 
来析出预测变量效应的模型方法，限制了我们发现其他可能的模式。 

测量分布形状的第二种属性是偏态。这一属性是许多不平等研究的核心 
所在。偏态通过数据值与均值的差的三次函数来计算。当数据围绕样本均值 
对称分布时，偏态的值等于0。负的偏态值对应左偏 分布; 反之，正的偏态值则 
对应右偏分布。换言之，偏态的存在，表明中位数以下的分布和中位数以上的 
分布出现了不平衡。 
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尽管偏态常常被用作描述分布的非正态性，但是偏态需要通过分布的高阶 
矩计算得到，这一事实限制了偏态的作用。我们需要寻找连接属性(如偏态)和 
协变量的更灵活的方法。与动差法 ( moment-based measure ) 相比，样本分位数 
可以在许多方面描述分布的非正态性。分位数和分布形状的简单结合有助于 
进一步发展出模型化形状变化的方法(这一方法将在第5章讨论)。 

非对称的上端和下端部分可通过分位数函数表达。图 2. 6分别描述了正态 
分布和右偏分布的分位数函数。正态分布的分位数函数围绕第 0. 5分位数(中 
位数)对称分布。例如，见图 2. 6 a ， 分位数函数在第 (X 1分位数的切线斜率等于 
在第 0.9 分位数的切线斜率。其他低-高对应的分位数同样具备这一特性。相 
比之下，偏态分布的分位数函数围绕中位数的分布则是不对称的。例如，见 
图 2. 6 b ， 分位数函数在第0,1分位数的切线斜率明显不同于在第 0. 9分位数上 
的切线斜率。 

用上端部分 (upper spread) 表示中位数之上的分布情况，而下端部分 (lower 
spread) 对应于中位数之下的分布。对于对称分布而言，上端部分和下端部分是 
相同的。另一方面，在右偏分布中，下端部分远远短于上端部分。我们将分位 
差偏态测量 (QSK)(quantile~based skewness) 量化为上端部分与下端部分的比 
值减去1。 


Q6K ip) = ( Q (1 -^ - Q (0 * 5) )/( Q (0 . 5) — Q(n ) - 1 for /. < 0. 5 [2. 2] 

量化的通过减去 1 而重新回到中心位置，因此对于对称分布而言， 
它依然等于0。当 QSK ( # 值大于0时，为右偏 分布; 当值小于0时，为左 
偏分布。 

表 2. 1呈现了图 2. 6中的对称分布和右偏分布的9个分位数，上端部分和 
下端部分，4个不同值下的 QSK ⑺值。对于对称分布而言， QSKW 等于0;而 
在右偏分布中，该值在 0. 3至 1. 7之间。 QSK ⑷的定义是简单明了的，并且可 
扩展至测量由协变量导致的偏态变化(见第5章)。 

到目前为止，我们根据 CDF 定义了分位数，并且发展出了分位差形状测量 
方法。另一种分位数的替代性定义有助于我们进一步理解分位数回归的估计 







分位数回归棋型 


表 2.1 分位差偏态测置方法 


总体 

比例 


对称分布 



右偏分布 


分位数 

下端或者 
上端部分 

QSK 

分位数 

下端或者 
上端部分 

QSK 

0. 1 

100 

110 

0 

130 

60 

1.7 

0.2 

150 

60 

0 

150 

40 

1.3 

0. 3 

180 

30 

0 

165 

25 

1.0 

0.4 

200 

10 

0 

175 

12 

0.3 

0.5 

210 

—— 

— 

190 

— 

— 

0. 6 

220 

10 

— 

210 

20 

— 

0. 7 

240 

30 


240 

50 

— 

0. 8 

270 

60 


280 

90 

— 

0. 9 

320 

110 

— 

350 

160 

—— 


分位数作为某些最小化问題的解决方法 


分位数同样可视为某些最小化问题的解决方法。由于下章将讨论分位数 
回归估计量的意义，所以我们需要引人新的定义。在这里，我们从中位数(第 
0.5 分位数)开始讨论。 

为介绍最小化问题，我们首先考虑大家熟悉的^分布的均值//。我们通过 
平方差 ( Y - fjd 2 可以测量 Y 的某一数据/点与均值户的距离，然后通过期望平方 
差 E [( Y —") 2 ] 计算 y 与均值"的平均距离。 

定义分布中心的一种方法是寻找户值从而使得 Y 的均方差 （average 
squared deviation ) 最小化。因此，我 们有： 

El ( Y - M ) 2 ^ = E [ Y 2 ]-2 E [ Y > + / , 2 

=( 户 — £[y ]) 2 + (E\yj - (E[y]> 2 ) 

=(//-E[y ]) 2 + Var ( y ) [2. 3] 


因为第二项 VarOO 是固定的，我们可通过最小化第一项 (^- E [ Y ]) 2 从而 
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最小化方程 2. 3。当^ = E [ Y ] 时，可使第一项等于0,同时最小化方程 2. 3,除 
此之外 P 的其他值都将使第一项为正值而使方程 2. 3偏离最小值。 

相似的，样本大小为 n 的样本均值同样可作为最小化问题的解决方法。我 

们寻找最小化平方均差丄一//) 2 的 "值： 

n i-i 

士 i)( ： yr") 2 = ~~ 公 ("-5) 2 ++ Yj^yi — yy 

71 i=i n n i^i 

=(ju — y) z + s 2 y [2.4] 

这里 j 表示样本均值， 4 表示样本方差。解决最小化问题就是使得第一项 
尽可能的小，那就是使"=孓 

具体而言，我们考虑包括下列9个值的样本:0, 23, 0.87, 1.36, 1.49, 
1. 89, 2. 69, 3. 10, 3. 82和 5. 25。样本数据点与特定 M 值的均值平方差的描 
绘图如图 2. 7 a 所示。注意最小化函数的数值点位于平滑拋物线中间凸起的 
部分。 

而中位数 m 也具有相似的最小化性质。相对于使用平方距离，我们可根据 
绝对距离 I Y—m | 测量 Y 与 m 的距离，并且根据平均绝对距离 (mean absolute 
distance ) E \ Y—m \ 计算总体中 Y 与 m 的平均距离。同样在最小化 E | Y—m \ 
的情况下，我们得到值 m 。 我们知道， | Y—m | 函数也是中部凸起的，因此，寻找 
某特定值，使得与 m 相关的导数等于0或者两个方向导数 (directional deriva - 
tives ) 的正负符号不一致，这样 I Y-m \ 函数便实现了最小化。这个答案便是 
分布的中位数。（详细证明见本章的附录） 

下面，我们讨论具体例子。我们将 m 至样本点的平均绝对距离定义为 

1^- mU 对于上面提到的包括9个样本点的样本，它的平均绝对距 

离函数如图 2. 7 b 所示。 对比于图 2. 7 a 所展示的函数图（均方差），图 2. 7 b 的 
函数在外观上同样是中部凸起的拋物线。然而，图 2. 7 b 的函数并不是平滑的 
曲线，而是每个样本点上的切线斜率有明显变化的分段直线。图中函数的最 
小值与样本中位数 1. 89 —致。这是众多现象中的特殊例子。对于任何样本，由 
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/( m ) = — 2 I yi~ 171 \ 定义的函数是 “ V ” 形函数 fi(m) = I yi—m \ jn 的总 

n /=i 

和(见图 2. 8 中，函数 / 对应数据点: yi = 1. 49) 。 当 m = 时，函数/有最小 
值0;并且当时，它的导数为一 1/ n ; 当 m > y 时，其导数为 1/ n 。 当该 
函数在 m = %上不可微时，在负向上有方向导数一 1/ w ， 在正向上有方向导数 
l / n 0 作为这些函数的总和，/对 m 在负向上的方向导数为 (r~s) /rz, 在正向 
上则为 (s—r)/n; 这里5是 m 值右边的样本点数， r 是 m 值左边的样本点数。 
/的最小值出现在当 w 的右边样本点数和左边样本点数相等时，即 m 为样本 
中位数。 





图 2. 8用于解决最小化问理的中位数的V形函数 


对中位数的表述可推广至其他分位数上。对于任何 f 6 (0, 1)， Y 至特定 
q 值的距离可由绝对距离测量，但根据 Y 是位于9的左边还是右边，我们赋予不 
同的权重。因此，我们将 Y 至特定 g 值的距离定 义为： 


㈣ ={ (1 —川 Y — 91 Y<9 

I p\Y-q\ Y^q 


[2.5] 
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我们寻找使 Y 的均值距离最小化的值0]。当 g 是第/>分位数 
时便达到最小值(见本章附录)。 

同样的，第 A 样本分位数正是使平均(加权)距离最小化的 g 值。 

— d p ( yi , q ) = -~~- 2 I yi~Q l +~2 I 3 M I 

^ ( = 1 ^ y,<q n y t >q 

分位数的性质 


分位数的一个基本性质是单调同变性 (monotone equivariance ) 0 如果我 
们对一个随机变量进行函数&的单调转换（如指数或对数函数），分位数可 
通过对分位数函数进行同样的转换而得利。换言之，如果9是 Y 的 第夕分 
位数，那么 / K 9) 是 W ) 的第/>分位数。同样的情况存在于样本分位数中。 
例如，对于一个样本数据，由于我们知道第20百分位数是4300,如果我们 
对数据进行对数转换，转换后的数据中第20百分位数就等于 log (4300) = 
8.37。 

样本分位数的另一个基本特性是他们对离群值的不敏感性。这一特性类 
似于分位数回归的特性，将使分位数和分位差程序 （ quantile-based procedures ) 
在许多情况中变得实用。假如有中位数为 m 的样本数据 A ，…， A ，我们将一 
个位于中位数之上的数据值 x , 替换成同样在中位数之上的其他值，从而修改了 
样本。同样的，我们也可以将一个位于中位数之下的数据值替换成同样在中位 
数之下的其他值。这样的修改对样本中位数没有任何影响。任意第样本 
分位数同样拥有相似的特性。 

我们将这种情形与样本均值进行比 较:将 样本值 A 改为其他值^ +4,将 
使样本均值变化 Mn. 这样，个别数据点对样本分位数的影响是有限的，但对样 
本均值的影响则并非如此。 ' 


小结 


本章介绍了分位数和分位数回归等概念。我们通过分布函数定义分位数 



和分位数函数，并发展出测量分布位置和形状的分位差测量 方法; 还通过与传 
统分布矩 （conventional distribution moments ) 相比较，强调了它们的实用性。 
另外，为了让读者更加了解分位数回归的估计量，我们将分位数重新定义为最 
小化问题的解决方法。有了以上准备，我们进入下一章讨论分位数回归模型及 
其估计量。 
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化要求。 

重复上述关于分位数的计算，与方程 A . 2相对应的分位数偏导数为 


^-E[_d p (Yj c?)] = (1 — p)F(q) — p(l — F(q)) = F(q) — p 


[ A . 3] 


我们设定偏导数 F ( g ) —p = Q 以得到 F ( g ) = p 进而满足最小化要求。 




第 2 章讨论的分位数函数足以用来描述和比较单变量的分布情况。然而, 
当需要对一个因变量与一组自变量的关系进行建模时，我们必须在分位数函数 
的基础上引入回归，即分位数回归模型 ( QRM )。 对于一组协变量，线性回归模 
型 ( LRM ) 代表条件均值函数，而 QRM 代表条件分位数函数。以 LRM 为参照 
标准，本章介绍 QRM 及其估计量，比较 LRM 和 QRM 的基本模型设置 ， LRM 
的最小二乘估计和 QRM 的类似估计方法，还有两类模型的其他特性。下面，我 
们将通过分析家庭收入 [2] 的实证例子来阐明本章的基本观点。 

线性回归模型及其短处 

在社会科学研究中， LRM 是广泛使用的标准统计模型，但它只关注因变量 
的条件均值，而没有充分考虑因变量条件分布的完整特征。相比之下， QRM 有 
助于我们分析因变量条件分布的完整特征。在某些方面， QRM 和 LRM 是相似 
的，两种模型都可处理具有线性未知参数的连续型因变量，但 QRM 和 LRM 对 
不同的量进行建模，并且依赖于对误差项的不同假设。为了更好地理解这些相 
似点和不同点，我们首先讨论 LRM , 然后再介绍 QRM 。 为了解释方便，我们集 
中讨论单一协变量的例子。当扩展至多个协变量时，虽然会增加额外的复杂 
性，但其思想在本质上是相同的。 

假设 y 为依赖于 I 的一个连续型因变量。在我们的实证例子中，家庭收入 
是因变量。对于工，我们用定距变量 ED (户主的受教育年限)表示，或者用虚拟 
变量 BLACK (户主的种族，黑人为1，白人为 0) 代替。在微观单位(在本例中是 
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家庭户）的样本中，数据是以 （々，％) 的形式成对出现的,其中；=1，…，〜 
通过 LRM ， 标准线性回归模型可表 示为： 

yi = +^\Xi-\-Ei [3.1] 

在这里服从均值为0、方差 W 未知的正态独立同分布。&的均值假设为0的 
结果是，我们可看到拟合数据的函数译+择 X 与工取特定值时的^的条件均值 
(表示为£[: yk ]) 相对应，这可被理解为与协变量* r 特定值相对应的总体: y 值 
的平均数。 

例如，当我们以受教育年限为协变量，进而拟合线性回归方程 3. 1时，我们 
得到预测方程夕 — 23127 + 5633 ED , 因此将选定的受教育年限代人方程中， 
将得到以下有关收人的条件均值。 ' 


ED 9 12 16 

Ely \ ED ] $ 27570 $ 44469 $ 67001 


假设这是一个完美的拟合，我们便可以将这些数值理解为拥有特定受教育 
年限的个人所获得的平均收入。例如，受过9年教育的个人的平均收入为 
27570美元。 

相似的，当协变量为 BLACK 时，这一拟合回归方程为《= 53466 — 
18268 BLACK , 当代入协变量的数值时，我们得到以下数值。 


BLACK 

Ely \ BLACK ] 


0 

$ 53466 


1 

$35198 


假设上述拟合模型确实反映了总体真实情况，我们可将这些值当作子总体的平 
均值,例如白人家庭的平均收入为53466美元，而黑人家庭则为35198美元。 

因此，我们得知了线性回归模型的一个基本原则，那就是它通过利用分布 
的均值来表示其集中趋势，从而尝试描述条件分布的位置的变化情况 。 LRM 
的另一个基本特征是要求满足方差齐性 假设; 即假设条件方差 V ar ( yU ) 对于 
协变量的所有取值都等于常数当方差齐性假设不满足时，可以通过同时对 
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条件均值和条件尺度进行建模而调整 LRM 。 例如，我们可以调整方程 3. 1从而 
对条件尺度进行 建模 ： y 这里7是另一个未知的参数，我们可 

写成 VaxCy | x ) = ( j 2 〆 。 

因此，对 LRM 的运用，反映了协变量与因变量关系的某些特征，并可用于 
完成模型化尺度变化的任务，而尺度变化被认为是条件分布最重要的形状改 
变。然而，对条件尺度的估计并不总是可以通过统计软件轻易获得。另外，线 
性回归模型对建模者设有明显的限制，并且，使用 LRM 来模型化更加复杂的条 
件形状变化，是很具挑战性的。 

为了描述采用 LRM 难以模型化的形状变化类型，各位可想象一些极端情 
况。对于大家感兴趣的一些总体，我们有一个因变量: V 和协变量: t ， 它们的特征 
是在工=1，2, 3时， y 的条件分布拥有图 3.1 所示的概率密度。该图上的三种 
概率密度函数拥有相同的均值和标准差。由于因变量 y 的条件均值和尺度并 
不随着 x 而变化，所以通过对这些总体中的样本拟合一个线性回归模型，并不 
能提供有用的信息。为了理解协变量是如何影响因变量的，我们需要一个新的 
工具。分位数回归便是完成这一任务的恰当方法。 



y 


图 3.1 平均数和标准差相同但偏斜不同的条件分布 




LRM 的第三个显著特征是它的正态性假设。因为 LRM 确保传统的最小 
二乘法可以最好地拟合数据，如果不作正态性假设，我们也可以通过 LRM 达到 
纯粹描述的目的。然而，在社会科学研究中， LRM 主要用来检验解释变量是否 
对因变量具有显著影响。假设检验需要超越参数估计，并且要求确定估计量的 
抽样偏差。夕值的计算依赖于正态性假设或者大样本近似值。如果违反这些条 
件，那么/>值可能是有偏的，并且将导致无效的假设检验。 

另一个与 LRM 相关的假设，是要求使用的回归模型适用于所有数据，我们 
称之为单一模型假设 ( one~model assumption ) 0 LRM 中的离群值(不符合数据 
大多数情况的值)将对拟合的回归直线产生不良的影响。通常的做法是在 
LRM 中确定并去除这些离群值。但离群值的意义及去除离群值的操作会破坏 
许多社会科学研究的结论，尤其是关于社会分层和不平等的研究，在这里，离群 
值和它们相对于多数数据值的位置是研究的重点。在建模方面，我们可能需要 
同时模型化大多数个案的关系和模型化离群值的关系，这一任务是 LRM 不可 
能完成的。 

我们将用家庭收入数据举例说明以上提到的所有特性 :以分 布的观点看到 
的条件均值的局限，对方差齐性假设、正态性假设及单一模型假设的违反。图 
3.2 展示了不同教育和种族群体的收入分布。收入的位置在三类不同教育群体 
之中和黑人与白人之间的变化是明显的，并且它们的形状也存在重要差异。因 
此， LRM 的条件均值无法表述由于协变量(教育或种族)的改变而导致的形状 
变化。另外，由于不同教育群体和两大种族的收人分布存在实质性差别，方差 
齐性假设便无法满足，而且也无法准确地估计标准误。在图 3. 2中的箱线图都 
是右偏的。条件均值和条件尺度模型不可能检测这些类型的形状变化。 

通过检验残差图 (residual plot ) ，我们可以识别7个离群值，包括受教育年 
限为18而收入超过505215美元的3个个案，还有教育年限为20而收入超过 
471572美元的4个个案。当在教育一收入模型中增加代表这些离群值阶层身 
份的虚拟变量时，我们发现这些个案使得截距额外增加了 483544美元。 

这些结果表明 LRM 方法的不足是由多方面的原因造成的，其中包括异方 
差性与离群值假设和对多种形状变化形式的检测失败。这些不足不仅出现在 
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9年学校教育 12年学校教育 16年学校教育 

( b ) 种族分组 


关于家庭收入的研究中，并且当采用其他测量方法时，也会存在。因此，我们需 
要一个替代性的方法，用来处理异方差性和离群值，并检测形状变化的多种 
形式。 

( a ) 受教育年限分组 

600 I - 


人 

白 


o o o 
o o o 

5 4 3 
IK*ooo I 



图 3. 2家庭收入的图示 


黑人 
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正如上面提到的，条件均值无法识别形状变化。条件均值模型并不总是可 
以正确地模型化中心位置的变化，尤其是当因变量的分布不对称时。对于一个 
对称的分布，均值和中位数是一致的，但偏态分布的均值和中位数(第 0. 5 分位 
数)则是不一致的。表 3.1 描述了家庭收人分布的一组简单统计数字。分布的 
右偏态性使得均值远大于中位数，不论是在整个样本中还是教育或种族的子样 
本中(见表 3.1 的首两行)。当分布的均值和中位数不一致时，中位数可以更加 
准确地表示分布的集中趋势。当我们检验中位数而不是均值时，三类不同教育 
群体和黑人与白人之间的收人位置的变化幅度会小很多。这一差异增加了我 
们使用条件均值方法模型化非对称分布的位置变化时的忧虑。 

表 3.1 家庭收入分布(总体，教育组和种族组） 



总体 

ED = 9 

ED = 12 

ED = 16 

WHITE 

BLACK 

均值 

分位数 

中位数 

50334 

27841 

40233 

71833 

53466 ’ 

35198 

(第 a 5分位数） 

39165 

22146 

32803 

60545 

41997 

26763 

第 0. 1分位数 

11022 

8001 

10510 

21654 

12486 

6837 

第 0. 25分位数 

20940 

12329 

18730 

36802 

23198 

13412 

第 0.75 分位数 

65793 

36850 

53075 

90448 

69680 

47798 

第 0.9 分位数 
分位差尺度 ( QBC ) 

98313 

54370 

77506 

130981 

102981 

73030 

(Qo.75 — Qo.25 ) 

44853 

24521 

34344 

53646 

46482 

34386 

(Qo.9 — Qo. 1 ) 

分位差偏态 ( QBS ) 

87291 

46369 

66996 

109327 

90495 

66193 

(Qo.75—Qo. 5) 1 

(Qo. 5 —Qo.25) 

0. 46 

0. 50 

0. 44 

0. 26 

0.47 

0. 58 

(C?0.9—Qo. 5) i 

(Qo.5_Qo, 1) 

1. 10 

1. 28 

L 01 

0.81 

1.07 

1.32 


条件中位数和分位数回归模型 


对于一个偏态分布，采用中位数测量集中趋势是更适合的，因此，条件中位 
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数回归 （conditional median regression ) 而不是条件均值回归，应该被考虑用作 
模型化位置的变化。条件中位数回归模型在18世纪中期由 Boscovich 首次提 
出，随后由 Laplace 和 Edgeworth 加以研究。中位数回归模型弥补了 LRM 条 
件均值估计的不足。中位数回归估计的是协变量对条件中位数的影响效应，所 
以即使分布是偏态的，它也可以代表分布的中心位置。 

为了模型化位置变化和形状变化，凯恩克和巴西特 (1978) 提出了比中位数 
回归模型更为一般化的模型——分位数回归模型 （ QRM ) 。 QRM 估计了协变 
量潜在的微小变化对条件分布中各种不同的分位数的影响，例如，从第 0. 05分 
位数到第 0. 95分位数之间的19个等距分位数。通过中位数和非中位数的分位 
数，这19条拟合的回归线可以捕捉位置的变化（中位数的回归线），还有尺度和 
更复杂的形状变化(非中位数的回归线）。因此， QRM 可以估计协变量对整个 
分布的微小影响，并且顾及到了异方差性。 

根据凯恩克和巴西特的设定，与方程 3. 1中的 LRM 相对应的 QRM 可表 
示为： 

yi = Xi + e ^ [3. 2] 

在这里 0<^<1 表示数值小于第 > 分位数的比例。回到 LRM ， 特定 X ,值下的 
yi 的条件均值为 £[3^ I a ] = (3 o + 汍心， 并且误差项&的期望值为0。而与之对 
应的 QRM ， 在特定々值下的第夕条件分位数为 Q ⑷（災 U ) = # 。这 

样，第 A 条件分位数是由特定分位数下的参数成# +^ p) 和协变量七的特定值 
决定的。正如 LRM ， 在关于误差项 et •的假定下， QRM 同样可被公式化。由于 
仏+把、 是固定的，如果要使(: v 」 石）=皮) +^^+0^(^-)=^ + 
以々， 则要求误差项的第夕分位数等于0。 

需要重点留意於是，对于分位数 A 的不同值而言，特定 〖下的 误差项 eP 
是彼此相关的。事实上，用 g 代替 A 后，方程 3. 2 变成 yi =(f 
从而有 f — e 卜―心+心(纪 —#) ，所以这两个误差项在特定& 
下相差一个常数。换言之，的分布和的分布只是彼此的一种位移(分 
布形状不变）。另一个需要考虑的关于 QRM 的重要的特殊情况是，当 
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i = l , …， n 时，服从独立同分布;我们将此视为 i . Ld 情况。在这一情形 
下， ef 的第 g 分位数是依赖于 A 和9而不是 i 的常数利用方程 3. 2,我 
们可将第9条件分位数方程写成0^(%丨不） = CT ( y 丨1,)+(^,。[ 3 ]所以 
我们的结论是，在 U . d 情况下，当斜率换成一般值译时，条件分位数方程 
只是彼此的一种简单的位移情况。换言之， i . U 假设指的是因变量的分布不 
存在形状变化。 

方程 3. 1中的 LRM 只有一个由一条方程式表示的条件均值，与之不同 
的是，方程 3.2 表明 QRM 拥有多个条件分位数。这样，多个方程可以方程 
3. 2 M 的形式表示。例如，如果 QRM 指定19个分位数，这19个方程会产生 
关于 A 的19组系数，分别表示19个条件分位数（及_，『、•••，# 95) ) 。 
这些分位数并不要求一定是等距的，但在实践中，将它们设为等距的会便于 
解释。 

在我们的例子中，拟合方程 3. 2将产生在已知教育或种族情况下的收入的 
19个条件分位数的估计值(见表 3. 2和表 3. 3)。教育的系数从第 0. 05分位数 
的$ 1019单调递增至第 0. 95分位数的$ 8385。相似的，在低端分位数中的黑 
人种族效应小于在髙端分位数的情况。 

12年受教育年限的条件分位 数是： 


p 0. 05 

E( yi \ EDi = 12) $7976 

0. 50 

$ 36727 

0. 95 

$111268 

黑人种族的条件分位 数是： 



p 0. 05 

0. 50 

0. 95 

Ed yi \ BLACK , = 1) $5432 

$ 26764 

$91761 


这些结果与 LRM 条件均值的结果十分不同。条件分位数描述了一种条件分 
布，被用以概括位置和形状的变化。对 QRM 估计值的解释是第5章和第6章 
的话题。 
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图 3. 3 描述了从总样本抽取的大小为1000户家庭的随机样本情况，左图描 
述了基于户主受教育年限的家庭收入的散点图和 LRM 的拟合直线。这单一的 
回归直线描述了均值的变化，例如，从 12 年受教育年限的均值 $22532 转换为 
16 年受教育年限的均值 [5633 X (16— 12)]。 但是，这条回归直线无法捕捉形状 
的变化。 

线性回归 分位数回归 
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图 3.3 教育对家庭收入的条件平均数和条件分位数的彩响 (1000 个随机家庭样本） 

图 3.3 中的右图呈现了与左图一样的散点分布和 19 条分位数回归线。 
50%分位数(中位数)的拟合线描述中心位置的变化，说明教育和条件中位数收 
入的正向关系。这一回归线的斜率为 $4208。 当受教育年限从 12 增加至 16 
时，收入增加的幅度达$ 16832[4208 X (16 —12)]。 这一变化小于 LRM 中的均 
值变化。 

除了位置变化的估计外，其他 18 条分位数回归线提供了关于形状变化的 
信息。这些回归线都是正向的，但有着不同的斜率。这些回归线在低教育水 
平处密集(例如 0—5 年的受教育年限），但在高教育水平处(如 16—20 年的受 
教育年限），彼此的偏差越来越宽。通过低教育水平处的斜线密集和高教育水 
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平处的斜线分散情况，可以描述形状的变化。例如，受教育年限为16的条件收 
入(第 0. 05条件分位数上的$ 12052变为第 a 95条件分位数上的$ 144808) 的 
变化幅度大于受教育年限为12的变化幅度(第 0. 05条件分位数上的$ 7976变 
为第 0. 95条件分位数上的$ 111268)。因此，非中位数条件分位数将位置变化 
从形状变化中分离出来。这一特征在确定协变量对因变量条件分布的位置变 
化和形状变化的影响效应上是至关重要的。这一话题将在第5章和对 QRM 结 
果的解释一起讨论。 


分位数回归 （ QR ) 估计 


我们通过回顾最小二乘估计而将 QR 估计放在熟悉的情境中讨论。最小二 
乘估计通过计算最小化残差的参数值，从而实现 A 和艮 的参数 估计： 

— (J3o [3. 3] 

如果 LRM 假设是正确的，当样本容量趋向无穷时，这一拟合的响应函数 
良+良将接近总体的条件均值 E(：y | : r )。 在方程 3. 3中，最小化的部分是数据 
点 U ， ％)到拟合直线^ =良+良: r 的垂直距离的平方总和。 

一个类似的最小化方法可通过如下步骤实现: （ a ) 分别对方程 3. 3在戽和 
A 处求偏导数 〆 b ) 设定每个偏导数都等于 0;( c ) 求解这个二元方程组。这样我 
们得到两个估 计量： 


/5i — ~ ^ ^ o — y~~ 

2 (工， _ 王) 2 

与 LR 估计量明显不同的 QR 估计量的特点在于，在 QR 中，数据点到回归 
线距离的测量通过垂直距离的加权总和(没有平方)而求得，这里赋予拟合线之 
下的数据点的权重是 1 — P ， 而赋予拟合线之上的数据点的权重则是/>。对于/> 
的每一个选择，如/> = 0. 10, 0. 25, 0. 50,都会产生各自不同的条件分位数的 
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拟合函数。这一任务是为每一个可能的寻找适合的估计量。读者需要留意 
第2章中讨论过的，分布的均值可被看作最小化总体平均平方距离的值，而分 
位数 q 可被看作最小化平均加权距离的值——根据数据点在9值之上还是之下 
而进行加权。 

具体而言，我们首先考虑中位数回归的估计量。在第2章中，我们描述了 ^ 
的中位数是如何最小化 E | ^ — w I 的。与中位数回归例子相似的对策是，我 
们选择最小化绝对残差总和 (the sum of absolute residuals) e 换言之，我们需要 
寻找最小化绝对残差总和(观察值与拟合值之间的绝对距离）的系数。最小化 
方程 3. 4可得到估计 量诈： 


X ], I yi — ^ | [3.4] 

在适当的模型假设下，当样本大小趋于无限时，我们得到总体的特定 I 值 
下的: V 的条件中位数。 

当方程 3. 4实现最小化时，我们得到一条中位数回归线 ( median-regression 
line )， 这一直线穿越一对数据点，使得剩下数据的一半位于回归线上方，另一半 
则在下方。也就是:大概一半的残差是正的，另一半为负的。但是存在多条具 
有这种性质的回归线，只有通过最小化方程 3. 4才可得到中位数回归线。 

算法细节 

在这一部分，我们将讲解方程 3. 4的结构如何帮助我们寻找实现最小化的 
算法。对此不感兴趣的读者可跳过本部分。 

图 3. 4中的左图展示了 8组假设的数据（: r ,， ％)和28条 {[8(8 _ 1)/2] = 
28} 连结每一对数据点的直线。其中的虚线是拟合的中位数回归直线，即通过最 
小化所有数据的绝对垂直距离总和而得到的直线。由此观察到，存在6对数据点 
没有落在中位数回归线上，一半数据点在回归线的下方而另一半则位于其上 
方。经过平面 U ， W 的每一个直线可表示截距1率为(译， A ) 的形式7 =译 
+ A & 因此在平面(工， 30 上的直线和在平面(戽 ， A ) 的点是相对应的。图 3. 4 
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中的右图是(^，沐）的平面图，图中包括左图每条直线所对应的点。特别的，中 
间的实心圆代表左图中的中位数回归线。 

此外，如果截距和斜率为(展，译）的直线经过一个特定的点 U ， ^)，那么％ 
=$+队工 i ， 因此点(译，译）落在直线 A = (: Vi / o ：,) —( I / aO / S ) 上。这样，我们在 
平面( X ，30上的点和在平面(择， A ) 的直线之间建立了对应关系，反之亦然，这 
一现象被称为点-线二元性 (point/line duality) (Edgeworth , 1888 )。 

图 3. 4中的右图上的8条直线对应于左图上的8个数据点。这些直线将 
平面(译，译）分割为一个多边形区域。这种区域的例子如图 3.4 阴影部分所 
示。在任何一个区域中，那些数据点对应于平面(工，： y ) 上的直线族，所有这些 
直线都以同样的方式将数据分为两个部分（即在一条直线上的数据点等同于 
另一条直线上的数据点）。因此，在方程 3. 4中我们设法最小化的(爲，焯）函 
数在每一个区域中都是线性的，所以这一函数随着一个形成多面体曲面 （ pol ¬ 
yhedral surface ) 的图像而凸起，正如图 3. 5从两个不同角度为我们的例子所 
作的展示一样。 



图 3. 4点线两重性的图示 
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这一多面体曲面的顶点、边和面分别投射出点、线段和区域，如图 3. 4中的 
右图展示的(择，爲）平面。利用点线二元性的对应性，每一个顶点对应于连结数 
据对的一条直线。曲面上连结两个顶点的边则对应于一对这样的直线，在这 
里,定义第一条直线的其中一个数据点被另一个数据点代替，并且其他的数据 
点保持与两条直线的相对位置不变(上面或者下面)。 

最小化方程 3. 4中绝对距离总和的计算方法，这种获得中位数回归系数 
(在， 存） 的方法，可以建立在解决线性规划的外点算法 （exterior*point algo- 
rithms) 上。 从对应于一个顶点的任意点 (择 ，译）开始，沿着多面体曲面的边从 
顶点到顶点反复移动，最后选择在每个顶点处最倾斜的那条路径，直到实现 
最小化。 




图 3. 5多面体表面及其投射 
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利用在之前段落中描述过的对应性特征，我们反复从由数据对确定的一条 
直线移动到另一条直线，在每一个步骤中确定当前的两个数据点到底是哪一个 
使得方程 3. 4达到最小值，这个数据点就被挑选出来。绝对误差总和的最小值 
是在低于曲面最低点的(译，你）平面上的点获得的。一个涉及在点择上的方向 
导数(类似于第2章提到的，中位数是解决最小化问题的数值)的小小争议可得 
出一个结论，即中位数回归线之上的数据点的数目等于回归线之下的数目。 

中位数回归估计量可一般化为第 P 分位数回归的估计量 （Koenker & 
d ’ Orey ， 1987)。回想第2章中的讨论，单变量样本％，…，％分布的第多分位 
数就等于使得样本数据中加权距离的总和最小化的9值，这里在 g 值之下的数 
据点的权重为1 一乂 而在9值之上的数据点的权重为夕。在类似的情况下，我 
们将第 P 分位数回归估计量妒和妒定义为可最小化拟合值 yi =& P) +纪、 
与值％之间的加权距离总和的数值，这里，如果拟合值低估了观察值: V ,，则使用 
权重1 一 h 在其他情况下则用权重换言之，我们设法最小化残差 M —夂的 
总和，正向残差的权重为多而负向残差的权重为1 一 P 。 正式的，第声分位数回 
归估计量#和#被用作最 小化： 

yi ) = p X ) ^ I 

+ (i — p ) XI I yi ~^ p) ~ x i I [3.5] 

y^T^T^i 

这里 A 是第 2 章中介绍过的距离。因此，这一方程不同于方程 3. 4,在 
方程 3. 4中正残差和负残差被赋予同等的重要性，而方程 3. 5给正残差和负残 
差赋予不同的权重。从方程 3. 5可观察，第一项的值等于位于回归线％ = if > 
+ ^3^4上方的数据点到该线的垂直距离的 总和; 同样的，第二项则是回归线下 
方所有数据点的距离总和。 

请注意 :与常 见的误解不同，每一个分位数回归的系数估计量是基于整体 
样本的加权数据计算的，而非基于这一分位数的部分样本。计算分位数回归系 
数纪> 和#>的方法，可依据类似勾勒中位数回归系数的直线而发展出来。第户 
分位数估计量拥有和中位数回归估计量相似的 特性: 位于拟合线; V , =以+ 
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把 Xi 之下的数据比例为/ > ，而位于上方的比例则为 1 — /)。 

例如，当我们估计第 0. 1分位数回归线的系数时，位于回归线下方的观察值 
的权重为0, 9,而上方的观察值的权重为 0. 1。结果，位于拟合线上方的90%数 
据点导致了正残差，而拟合线下方的10%数据点拥有负残差。相反的， 
为了估计第 0. 9分位数回归的系数，赋予回归线下方的数据 0. 1的权重，其余则 
为 0. 9的 权重; 因此，90%观察值拥有负残差而剩下的10%观察值拥有正残差。 


转化与同变性 


当分析一个因变量时，研究者常常为了解释的方便或者获得更好的模型拟 
合而变换尺度。模型和估计值的同变性表明，如果数据被转化了，模型和估计 
值也会经历同样的转化。当我们转化因变量后，同变性的知识有助于我们重新 
解释拟合模型。 

对于因变量的任何线性转化，即在 y 的基础上加上一个常数或者乘以一个 
常数， LRM 的条件均值同样得到精确转化。这一陈述的正确性是基于以下事 
实: 对于任意常数 a 和“我 们有： 


E ( c^\~ay I x ) = c -\~ aE(y | x ) [3_ 6] 

例如，如果总体中每户家庭从政府那里获得 500 美元，总体的条件均值将同 
样增加500美元(新的截距将增加 500) 。如果收入的单位从1美元转化为1000 
美元，单位为1美元的条件均值同样将增加到1000倍(截距和斜率将同时乘以 
1000以改变美元的单位)。相似的，如果工资价格已经由美元单位转化为美分 
单位，那么将条件均值(截距和斜率)除以100将再次转化为美元单位。这一性 
质称为线性同变性 (linear equivariance ) ，因为线性转化对于因变量和条件均值 
而言是相同的。 QRM 具有同样的 性质： 

Qt p) { c-\-ay \ x ) = c ~\- a ( Q (p) \^y \ x ]) [3. 7] 

这里我们假设 a 是一个正向的常数。如果 a 为负，因为顺序相反，所以我 们有： 
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Q (p} ic + ay \ x) = c + a(Q (卜夕 ) [: y 丨 x]) 

非线性转化是常常出现的情况。对数转化经常被用于处理分布的右偏态 
问题。为了使分布更加正态化或者获得更好的模型拟合，其他转化方法也会被 
考虑。 

为了模型化协变量的相对效应(如百分比变化），对数转化同样被采用。换 
言之，协变量的效应更多地被看作是倍增的而不是递增的。在我们的例子中， 
教育和种族的影响效应在之前表达为递增的形式(美元单位），并同样可以用倍 
增的形式测量，如以百分比变化的形式。例如，我们可以提 问：当 受教育年限增 
加一年时，条件均值收入的百分比是如何变 化的？ 当受教育年限增加一年时， 
在对数收入方程(乘以 100 ) 中的教育系数近似于条件均值收入的百分比变化。 
然而，在 LRM 中，对数收人的条件均值并不等同于条件均值收人的对数。对收 
入和对数收入的 LRM 进行估计，产生以下两个拟合模型： 

y =- 23127 + 5633 ED , logy = 8. 982 + 0 , USED 

从对数收人模型的结果可知，当教育增加一年时，条件均值收人将增加 
11 . 5 %。 M 而受教育年限为10年时，收人模型中的条件均值为$ 33203，其对数 
为 8 . 108。在同等教育水平下，对数收入模型中的条件均值则为 10. 062,这一数 
字大于收人条件均值的对数 (8. 108)。 LRM 的因变量的对数转化允许将 LRM 
的估计值解释成百分比变化，但是绝对形式的因变量条件均值不可能从对数化 
的条件均值中 获得： 

EGogy I x) 7 ^ log[£X：y 丨 x )] 和 I ^/] 7 ^ [3. 8 ] 

特别的，如果我们的目标是为了估计教育的绝对效应，我们需要选择收入 
模型;但如果是为了估计教育的相对效应，我们则选择对数收入模型。尽管这 
两个目标彼此关联，但是在任何简单的转化后，两种模型的条件均值并不相 
关。 [ 6 ] 因此，采用对数收人的结果对收入的分布作出结论将会犯错误(尽管这在 
实践中普遍存在)。 

对数转化是单调转化方法族中的一种，那就是维持顺序不变的转化。正式 
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的，在 >< y 时，如果 wwc / k /)， 那么转化形式&就是单调的。对于数值恒 
为正的变量而言，在常数4为固定的正值时，幂转化 AO ；) = y 也是单调的。由 
于非线性影响，当我们对因变量进行单调转化后，转化后因变量的变化幅度对 
于不同的: V 值是不一样的。然而方程 3. 6 的特性只在线性函数下才正确，对于 
一般的单调函数则不适用，那就是， £(/ K ： y ) U ) 关 U ))。 一般而言，“单 
调同变性”的性质对于条件均值来说是不成立的，所以 LRM 并不具有单调同 
变性。 

相比之下，条件分位数具有单调同变性的 特征; 那就是对于一个单调函数 
M 我 们有： 

Q (p) Ch(y) I x) = h(Q^ly I x]) [3. 9] 


这一性质直接遵循着第 2 章中提到的单变量分位数的单调同变性特征。尤 
其是，对数 y 的条件分位数就是7的条件分位数的 对数： 

Q { p ) (\ og ( y ) I x ) — logCQ^Cy I x]) [3.10] 

同样的， 

Q ip) ( 3 ； U)=[3. 11] 

因此，我们可以将非转化变量的拟合分位数回归模型重新解释为转化变量的分 
位数回归模型。换言之，假设第夕分位数函数的完美拟合形式为 I I )= 
A ) 所以我们就有 CP aogy \ x ) = log (成 + 历 X ) ，因此，我们可以用协变 

量的绝对效应描述协变量的相对效应，反之亦然。 

以条件中位数作为 例子： 

Q (a50) (^- I ED,) =-13769+ 4208ED,, Q (a50) (log(^) | £D ( ) 

= 8. 966 + 0.123£Di 


受教育年限为 10 年时的收入条件中位数为28311美元。这一条件中位数 


的对数为 10. 251，近似于在同等教育水平下对数收入方程的条件中位数为 
10. 196。相应的，当对数形式转变回初始形式，对数收入方程在受教育年限为 
10时，其条件中位数为 e 10 * 196 = 28481。 
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QRM 的单调同变性对于涉及偏态分布的研究而言是至关重要的。如果采 
用 LRM ， 原先的分布形状会在对数单位估计值反向转化时被扭曲，但是如果使 
用 QRM ， 就可以维持原先的分布。不平等研究中经常使用百分比变化的形式 
来表达协变量对因变量的影响。因此，单调同变性可以帮助研究者实现两个目 
标 :测量 协变量的单位变化而引起的因变量的百分比变化、测量这一变化对初 
始单位下的条件分布的位置和形状的影响。 

稳健性 

稳健性指的 是:关 于数据 3 N 对离群值的存在和模型假设的违反不敏感的一 
种性质。离群值被定义为违反: y 中多数值之间关系的一些数值。在 LRM 中， 
估计值受离群值影响较大。在前文中，我们举例说明了收入分布的离群值是如 
何扭曲均值和条件均值的。 LRM 对离群值的高度敏感性是众所周知的。然 
而，4实践中，删除离群值不能满足许多社会科学研究，尤其是不平等研究的 
需要。 

相比之下， QRM 估计值则不受离群值的影响。^它的稳健性由于最小化 
方程 3. 5中距离函数的性质而得到了增强，并且我们能够说明分位数回归估 
计值的特性，这类似于第二章关于单变量分位数的陈述。如果我们修改位于 
拟合分位数回归线之上(或之下）的某个数据点所对应的因变量的值，只要这 
个数据点依然处于回归线之上(或之下），这条拟合回归线将保持不变。换言 
之，如果我们在不改变残差的正负符号情况下修改因变量的值，这一拟合线 
将保持不变。在这种情况下，正如单变量分位数一样，离群值的影响是十分 
有限的。 

另外，由于估计值的协方差矩阵是在正态假设下计算得到的，所以 LRM 
的正态假设对于获取 LRM 的推论统计值是必需的。对于正态假设的违反将 
产生不准确的标准误。 QRM 对分布假设的稳健性，是因为它的估计量更多 
地依赖于特定分位数附近的分布状态，而非远离分位数的分布情况 。 QRM 
的推论统计值是不受分布情况影响的(这是本书第4章讨论的话题）。稳健性 
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在研究高度偏态的分布现象，如收入、财富、教育和健康结果时，是十分重 
要的。 


小结 


本章介绍了分位数回归模型的基本原理，并与线性回归模型进行了比较， 
包括模型设置、估计方法和估计值的性质等。 QRM 延续了第二章介绍的样本 
分位数的许多特性。另外，我们还解释了 LRM 在特定情况下如何不适用于反 
映协变量对因变量分布的作用。同时，我们强调了 QRM 的一些关键特征，并展 
示了 QRM 与 LRM 之间众多重要的差异: （ a ) 多元分位数回归对数据的拟合与 
一元线性回归分别对数据的 拟合; （ b ) 最小化残差绝对值的加权总和的分位数 
估计与最小化平方总和的最小二乘 估计; （ c ) 条件分位数对于分布假设的单调同 
变性和稳健性，而条件均值则缺乏这些特性。通过这些基本原理，我们可以进 
入关于 QRM 推论的话题。 



第 4 章 I 分位数回归的推论 




第3章涉及参数估计的话题。我们现在转向推论统计部分，尤其是 QRM 
的标准误和系数估计值的置信区间。首先，我们综述 LRM 的推论方法，讨论有 
限样本情况和用于构建置信区间与检验假设的量的渐近分布情况。然后，我们 
介绍相应的 QRM 的渐近程序 (asymptotic procedure )。 接着，我们介绍 QRM 
的自举程序——用于进行 QRM 系数的推论。因为关于渐近程序的假设常常不 
能成立，所以自举程序是更合适的;而且，即使这些假设得到满足，计算构造尺 
度和偏态变化的标准误也将十分复杂。自举程序为获取任意估计值或估计值 
组合的标准误和置信区间提供了灵活性。本章的最后部分将讨论关于拟合优 
度和模型诊断的话题。 

LRM 的标准误和置信区间 

首先，我们综合回顾一下 LRM 系数的推论过程，在理想的建模假设下，其 
表达式为 y + e - 这里的误差&服从均值为0、方差为常数^的 

正态独立同分布 ( U . d )， 因此这种分布是可导的。表达式:表示为第 j 个协 
变量在第；个样本个案上的值。为了更好地进行下面的讲解，可将 ，—— mi 
个个案所对应的协变量值的矢量——看作(列)矢量 I 

误差方差的估计量通常由 P = RSS /( n -« 表示，在这里, RSS 表示剩余 
方差，而6则是拟合模型中预测变量的个数(包括常数项）。将预测变量值的 
nXk 矩阵表示为 X [因此第 i 列为 xm ，即第 z _ 个个案所对应的协变量值]，回归 
系数矩阵中的最小二乘估计量 g 的联合分布是多元正态的，其均值为真实值戸， 
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协方差矩阵为因此，一个单独的系数估计量爲服从正态分布，其均 
值为真实值岛，方差为知7 2 ,这里氏表示矩阵 ( Xir 1 的第 j 个对角线元素 ( di ¬ 
agonal entry ) 0 这样，我们通过知? 2 估计方差在。 

当然，我们通过对估计量取平方根而估计其标准差，并将之看作泛的标准 
误(表示为 q )。 关于误差分布假设的结果是，量 （ ft — 译）/%服从自由度为 
n - k 的学生£分布。这允许我们建立岛的标准的 100( li )% 置信区间，表示为 
总士匕 /2 %，同样允许在《水平下通过拒绝虚无假设 H 。:/% = 0,如果丨 吾"、\> 
t a /2 , 进而检验第 j 个协变量是否对因变量有显著影响。 

而且，这些结果对于大样本同样有效，甚至当我们放宽标准误的正态性假 
设时。如果是那样的话，量（总一岛) / q 接近于标准正态分布。因此，上面描述 
的假设检验和置信区间，还可以用 z a /2 替代 i 分布中关键的上 a /2 点，、 2 表示标 
准正态分布中关键的上 ar /2 点。 

表 4. 1展示了线性回归模型的拟合值结果，在这里,收人是两个预测变量 
( ED 和 WHITE ) 的函数。下面给出了估计系数，并在括号里给出了它们的标 
准误。例如，对于 ED ， 它的标准误估计为98。的系数同样拥有一个小 
的标准误: 777。 


表 4.1 收入线性回归估计值的渐近标准误 


变 量 

收 人 

ED 

6294** 


(98) 

WHITE 

11317" 


(777) 

决定系数 

0. 16 


注： “/ ICO . 01。 


QRM 的标准误和置信区间 

我们希望对表达式为^ = : 的 QRM 的系数广进行 
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推论。正如第3章提到的，与这个模型等同的表达式可写为％ = 

+#>，这里， e 广拥有第分位数为0的一般分布。正如 LRM 的情况一样，系 
数/^>的推论是在计算忠#的标准误％,的基础上，以置信区间或者假设检验 
的形式进行。这个标准误具有一个特性，即量 (^ P ) ~^ P ) )/ s r 接近标准正态 
分布。 

正如第三章提到的， QRM 的标准误在 i . i . d 模型中是比较简单和容易描述 
的。因此，的渐近协方差矩阵可以 写成： 

= [4.1] 

在方程 4. 1中出现的项式 (0) 代表着从误差分布的第/>分位数估计得 
到的误 差项〆 w 的概率密度。[ 8] 正如在 LRM 中，协方差矩阵是矩阵 (UO - 1 的 

纯量倍数 (scalar multiple) 。然而，在 QRM 中，乘数 拉—於 • 代表基 

n (0) 

于(单变量)样本 ef ， …，上的样本分位数的渐近方差。在方程 4. 1中出现 
的密度项是未知的，如同在单变量样本中一样需要被估计，而且在第二章描述 

的估计对应项的步骤可轻易地应用到现在的情境中。量 =^3 (p) ( e w) 可 
通过不同的商去[⑼（奸 W — ⑼估计得到，在这里，样本分位数 
3(/>士/0是以拟合 QRM 模型中的残差 f %全皮〜: 1 )，一1，…，沒为 

j=i 

基础的。对 A 的选择比较微妙，凯恩克 (2005) 提出了一些可以选择的方法。 

处理非 i . i . d 样本的情况将更加复杂。在这种情况下， e 产不再具有共同的 
分布，但所有这些分布依然拥有为0的第/>分位数。为了处理这些非共同的分 
布，有必要引人矩阵 IX 的加权版本(下面的 A )。 

0有这些在 QRM 中获取渐近标准误的分析方法，始于凯恩克在书中提到 
的一般结论 ( Koenker ，2005) ，该书提出了一种适合系数估计值联合分布的 
多变量标准渐近法 (multivariate normal approximation )。 这种分布的均值由真 
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实系数和协方差矩阵组成，这一矩阵的表达式为= 〆 々 左 ) -DX 
又有： 

D。 = lim 一 。 丄文 ] :r*r , , 和 Di = lim 一 。 丄 S^WiX^ 0 ^' [4. 2] 

n T =1 n 1=1 

这里表示 1 X 6 维度下的 X 的第 i 列。而0。和 A 指的是 6 X 6 矩阵。加权 
值为％ = # (0) ，其中概率密度函数的估值为0[这就是的第/>条件 
分位数]。这样，我们可以求岀表达式为史兗的 A 的总和，这里文是从 X 的第 
i 列乘以 A 而得到。在方程 4. 1趋向于正定矩阵 A 的情况下可以给出适度 
宽松的条件。正如在 i . i . d 情况中一样，我们 看到: 条件密度函数之上的 p 〜渐 
近分布是基于从感兴趣的分位数估值得到的。然而，由于 eP 不服从同分布，这 
些项式随着 i 的不同而不同，于是产生了不同的权重。由于密度函数是未知的， 
它成为估计出现在方程 4. 2中的权重 w 的必须条件。计算这些权重的估计值 
舐的两种方法在凯恩克的书中有所提及。不管应用的方法是哪种，的协方 

差矩阵都被估算为 f = 在 这里： 

n 

D 0 = — y ] x ( i ) ^ S^nDi — — [4. 3] 

^ T^i n fr{ 


单独的系数估 计量# 的估计标准误可通过估计协方差矩阵 i 的相应对角 
线元素 (corresponding diagonal element ) 的平方根获得。如在 i . i . d 情况中，现 
在我们可以检验关于协变量对因变量影响效应的假设，并且获得分位数回归系 
数的置信区间。 

表4_ 2展示了二元变量 QRM 中第 0. 05和第 0. 95的收入分位数估计值的 
渐近和自举标准误。虽然渐近和自举的标准误存在一定的差异，但它们关于 
ED 和效应的结论是相同的。在第 0. 05分位数上， £: D 的点估计为 
1130美元，标准误为36美元。而在第 0. 95分位数上,相对应的数字分别为 
9575美元和605美元。但在第 0. 05分位数上， WffJTE 的系数等于3197美 
元，标准误为359 美元; 在第 0. 95分位数上则为17484美元和2895美元。我们 
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还可以用标准误计算置信区间。 


表 4. 2收入分位数回归 模型一 渐近和500次重抽样自举标准误 


(500 Resample Bootstrap Standard Errors ) 

变 量 


P 


0. 05 


0. 95 

ED 

1130 


9575 


(36) 


(605) 


[80] 


[268] 

WHITE 

3197 


17484 


(359) 


(2895) 


[265] 


[2280] 


注: 小括号内为渐近标准误;中括号内为自举标准误。 


表 4. 2表 明:两 个极端的分位数上的 ED 和 WHITE 的正向效应在统计上 
是显著的。然而，协变量效应在不同的分位数上是否存在显著差异，还需要进 
一步检验。这些检验需要不同分位数上的系数的协方差矩阵。正如我们上面 
讨论过的，估计 QRM 的误差方差要比 LRM 复杂 得多; 因此，从多元 QRM 得到 
的系数协方差将会十分复杂，以至于在实践中不可能得到封闭解。这样，我们 
需要替代性的方法，来估计不同分位数上的系数协方差，这个话题我们将在下 
—个部分讨论 。 

关于渐近标准误，更重要的担心是 i . L d 假设通常难以成立。经常观察到 
的偏态和离群值使得误差分布背离 L L d 假设。我们发现标准的大样本近似 
法对于 i . L d 误差假设的微小偏离都是十分敏感的。这样，基于强参数假设之 
上的渐近程序不适合用于完成假设检验和估计置信区间 （ Koenker ， 1994)。 
不需要 L i d 假设的替代性方法是更加稳健和实用的(例 如: Kocherginsky，He 
& Mu ，2005)。 为了获得稳健的结果，就要求不论因变量的概率密度函数 
的形式是什么，其统计方法都是适用的，而且它的误差也是令人满意的。换 
言之，这种替代方法对因变量的分布没有前提假设。一个好的选择便是自 
举法。 
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QRM 的自举法 （Bootstrap Method) 

可代替在之前章节中讨论的渐近法的便是自举法。自举法是一种蒙特卡 
洛 ( Monte ^ Carlo ) 方法，它用于估计参数估计值的抽样分布，这些参数估计值的 
计算依赖于来自某种分布的大小为 n 的样本。当一般的蒙特卡洛模拟法被用 
于模拟抽样分布时，需要假设总体分布是已知的，大小为《的样本是从该总体 
分布中抽取的,而且每一个样本都被用于计算参数估计值。这些从计算得来的 
参数估计值的经验分布便被用作模拟我们想要的抽样分布。特别的，估计值的 
标准误可以通过参数估计值的样本的标准差计算得到。 

由埃弗隆 ( Efrcm ，1979) 引入的自举法不同于一般的蒙特卡洛模拟法。与 
从假定的分布中抽取样本不同的是，我们从实际观察得到的数据中采用放回抽 
样方法抽取大小为 n 的样本。重新抽样的数量(用 M 表示)在估计标准差时通 
常位于50到200之间，而在估计置信区间时，则位于500到2000之间。尽管每 
一个重新抽样有着与初始样本相同的要素数量，但它可以多次抽取某些初始数 
据点，同时排除其他一些数据点。因此，每一个再抽样样本都随机地偏离初始 
样本。 

为了举例说明自举法，我们来考虑在样本^，…，％的第25百分位数 
m 样本基础上估计总体第25百分位数 Q <0 * 25) 的情况。我们想要计算估计值 
的标准误。一种方法是使用第2章提到的大样本模拟&° 25) 的方差。这将 

^4 = = 770^ 作为如 25 )的标准 差的近 纖’在 

这里/表示总体密度函数。由于这个密度是未知的，所以我们必须估计它，并且 
正如在本章开始部分提到的，我们可以通过公式 ~ Q<o ^))/(2/ l ) 和选 
择适当的常数 A 来估计项式1//( Q (0 * 25) ) o 

同样解决这一问题的自举法在某种程度上更加 直接: 我们采用放回抽样方 
法，从初始样本中抽取大小为 n 的大量样本。这些样本被称为自举样本 ( boot ¬ 
strap sample )。 对于第 m 个自举样本歹产，… ，歹 i m > ， 我们要计算值 dr s> 。重 
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复大数 M (50 至 200) 次抽样，将产生样本饥=1,…，吣我们将其视为 
从抽样分布&° 25) 中抽取而来的。然后，我们使用 dr 5) ，m = l ， …， JVT 的标准 
差^ ，来估计我们想要的标准差。 

自举估计同样用来获得目标总体第25百分位数的近似置信区间。有各种各 
样的方法可以达到这一目的。其中一种是利用样本的初始估计值 25) 及它的标 
准误、 t ，100( l - a )% 来计算置信区间的常态近似值 0 (a25) 

另一种替代方法是利用自举估计样本的经验分位数。对于自举的95%置 
信区间，我们将区间的端点看作样本自举估计值的第 0. 25和第 0. 975分位数。 
更具体的，如果我们将自举估计值&_，…，从小到大地排列数字顺序 
& a 25) ，…，《=，我们的置信区间便是[&_ 25) ，6= 25) ]。其他任何覆盖概率 
的置信区间都可以使用相似的方法建立。 

将这一思路扩展至 QRM ， 我们希望估计分位数回归的参数估计值^3^ = 
(成〜…， 的标准误，这些参数估计值是基于包括样本协变量一因变量数 
据对（4, ％)， i=l ， …， n 的数据而计算得来的。这种 (X，30 数据对的自举 
法，指的是通过对这些数据对的放回抽样而得到的大小为〃的自举样本，数据 
对即微观单位(包括 x ， y 数据的个案）。样本中一个数据对的重复次数是通 
过他们的重复率而计算的，因此，一个出现了々次的数据对被抽取的概率将增 
加是倍。 

每一个自举样本产生一个参数估计值，而我们通过 M 自举估计值可以计算 
特定系数估计值的标准误这种自举估计可以通过不同方式用于计算 
单个分位数回归 参数 〆 &的置信区间。其中一种便是利用标准误估计和正态渐 
近法： 足〜士。或者，我们可以在样本分位数的基础上计算置信区间。例 
如民 fi) 的 95%置信区间从样本的第2, 5百分位数延续至第 97. 5百分位数，这一 
样本包括 M 的自举估计值 

例如，对基于19个等距分位数 （p = 0.05,…， 0.95) 的多元 QRM 可以从 
总体上考虑。我们可以估计19个模型中所有可能的分位数回归系数之间的协 
方差。例 如:当 正在拟合的模型包括截距参数贫和与两个协变量贫和贫相对应 
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的系数时，我们有 3 X 19 = 57 个被估计的系数，产生57 X 57协方差矩阵。这一 
矩阵不仅提供了在每一个分位数[如， Var ( M ° 5 ) 和 VaK #^)] 上各个协变量 
的系数方差，而且还提供同一协变量[如， C 0 vM 〖° 5 )， Var (及〖 5 °)]在不同分位 
数上的估计值的协方差。 

通过对方差和协方差的估计，我们可以通过瓦尔德 ( Wald ) 值进行假设检 


验，以验证同一协变量但不同分位数/>和9相对应的一对系数戌〜和戌 9) 是否 


相等。 


WaZd 值= 


八 2 


[4. 4] 


分母中的&是瓦⑼一的差的估计方差，可以通过下面的等式和替 
代等式右端的估计方差和协方差而 获得： 


VarCg^-^) - Var(g^ ) + Var(g 9 )) — 2Cov ( 把 ) ，於 ) ） [4. 5] 


在虚无假设下，瓦尔德值服从自由度为1的卡方分布 a 2 )。 

更一般的，我们可以检验不同分位数上的多元系数是否相等。例如，假设 
我们拥有两个协变量和模型中的截距部分，我们希望检验第 f 和第9条件分位 
数函数是否可以彼此转化 ，即： 


Ho ：^ 二把 和 /T = 虻与 H a : r 讀 或者皮 > 讀) 


去除了截距部分。进行此类检验的瓦尔德 ( Wald ) 值可以被描述如下 :首先 ，我 
们利用估计的协方差来获得的一个估计协方差矩阵，其表达式 


为 


au 


Lon 


/\ - 

，这个式子可以通过将估计的方差和协方差替换为下 

/\ 

0 22 _ 


面的式子而 求解: 


a u= VarC^-^) - Var(^) + VaK^) - 2^(^,^) 

ai 2 = a 2 i= Cov(^, ^)+ Cov ( 把 ) ， ㉟) — Cov(^, 

一 Cov (武 9 ) ，送 ) 
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^ 22 - VarC^-^) = VaK# ) + Var(g 9) ) — Cov(^ p \ ^ ) 
下面我们计算这一检 验值： 




t 

八 一 1 

nr 

W = 


y 1 



这个式子在虚无假设下，接近于自由度为2的卡方分布(/)。 

Stata 通过 bsqreg 命令，可实现单个 QRM 的自举程序，而对于多元 QRM ， 
则釆用 sqreg 命令。从 sqreg 命令计算出的估计值和那些通过 bsqreg 命令得到 
的个别结果是一样的，但是 sqreg 命令会提供整个协方差矩阵。 sqreg 的实用性 
有助于研究者检验不同分位数上的系数是否相等。依靠计算机技术的发展，多 
数研究者得以使用自举法。例如，在超过2万户家庭的收入数据中的500个重 
新抽样样本，中位数上的二元 QRM 的协方差估计任务， Stata (版本 9. 2) 通过64 
位、 1. 6 G 赫兹的处理器大概要用8分钟来完成。而拥有500个复制样本的19 
个分位数进行类似估计则需要花2个小时。 


QRM 的拟合优度 


在线性回归模型中，拟合优度由记（即决定系数) 测量: 


X), (兑一夕) 2 — ^ 兑) 2 


[4.6] 


在第二项表达式中的分子代表观察值^与相应的模型拟合值$的距离平 
方和。另一方面，分母则是观察值和拟合值(只从模型中的截距部分计算得来) 
的距离平方和。因此，尺 2 可被理解为在模型中因变量的差异可由预测变量解释 
的比例。这个数值落在0和1之间， J ? 2 值越大，表示模型拟合越好。 

对于分位数回归模型，我们可以轻松地发展出类似于 i ? 2 的统计值。由于 
线性回归模型拟合是基于最小二乘法的，而分位数回归模型则以最小化加权距 
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离总和兑 ）） 为基础，正如第3章至第5章提到的——根据 y >兑还 

/ =i 

是 y <兑而确定不同的权重——我们依据符合这一标准的方式来测量拟合优 
度。凯恩克和马沙杜 (Koenker & Machado , 1999) 建议通过比较模型中的加权 
距离总和与截距参数的总和来测量拟合优度。让 V 1 (/>) 表示第夕分位数回归完 
整模型的加权距离总和，让 V °( P ) 表示只包括常数项的模型的加权距离总和。 
以单一协变量模型为例，我 们有： 

V l {p) = J^dpCyi, y ( ) = SjH 〆 I M — 皮 ) I 

t=i ■ 0 i 

+ I 3». I 

和 


v°(/>) = Q ip) ) = Ep I yi-Q {p) 1+S(1 —/>) I yi~Q ipy I 

i=l y,>y >i<> 

对于只包含常数项的模型，拟合的常数正是样本 M ， …， 5 的第分位数 
3〜。这样，拟合优度便被定 义为： 


-雜 


[4.7] 


由于 V °(/0 和 VH /0 是非负的，珥的最大值为1。同样，因为完整拟合模型 
中令加权距离总和最小化，永远不会大于 V °4)， 所以大于或等于 0。 
因此， A 的取值范围在0和1之间，大的仏值表示更好的模型拟合。方程 4. 7 
是 QRM 在 /) 上的拟合优度的局部测量。对于所有分布的 QRM 的全面评估， 
要求对进行整体检验。 

上面定义的允许我们对超出截距项的任意协变量拟合模型与只包括截 
距项的模型进行比较。这是由凯恩克和马沙杜 （1999) 为嵌套模型引进的比较 
拟合优度的受限形式。通过明显的扩展，对于特定模型拟合度的改善程度，可 
以通过模型的较大受限形式来测量。由此得到的结果被称为相对 i ? ⑼值。让 
V 2 ^) 表示限制较小的第夕分位数回归模型的加权距离总和，而让 P (/>) 表示 
限制较大的第 A 分位数回归模型的加权距离总和。而相对 i ? ⑼值可表 示为： 
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相对 1?(,) =1-^^ [4. 8] 

下面我们用收入的例子进行讲解。我们在19个等距分位数上对收入拟合 
一个二元变量 QRM (教育和种族)和一个一元变量 QRM (只有教育）。表 4. 3 
中的数值分别代表常数模型和完整模型的拟合优度(见图 4. 1)。 Stata 通过方 
程 4. 7提供了拟合优度的测量值，并称之为伪 ( pseudo ) 记值，以便与 LRM 的常 
规 i ? 2 相区分。 



-1个协变量2个协变量 


图4,1分位回归模型的拟合优度 :一个 协变置模型嵌套于两个协变量棋型 

表 4. 3列出了二元协变量模型的拟合优度。在低尾处的收入拟合优度要低 
于上尾处。收入分布中19个分位数上的平均1?⑼为0.0913。而一元协变量模 
型是嵌套在二元协变量模型中的，它在19个分位数上的平均2? ⑼为 0. 0857。 
这些模型的表示将种族作为解释变量会改善模型的拟合。对比于一元协变 
量模 型的氏 ，二元协变量模型的尺只有适度的增加，所以，教育拥有主要的 
解释力。对于添加种族是否显著改善模型的正式检验方法是 r 比率 ( mtio )。 
对于一组解释变量的正式检验方法超出了本章的范围，感兴趣的读者可参考凯 
恩克和马沙杜的书 (Koenker and Machado , 1999)。 
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表 4. 3 收入分位数回归模型的拟合优度 


模 

型 

0.05 

0.10 

0,15 

0 . 20 

0 . 25 

0.30 

0.35 

0.40 

0.45 

0.50 

二元变量一收人 
—元变量一收入 

0. 0254 

0. 0204 

0. 0441 

0. 0381 

0. 0557 

a 0496 

0. 0652 

0. 0591 

0 . 0726 

0. 0666 

0. 0793 

0,0732 

0,0847 

0.0784 

0,0897 

0 ,0834 

0.0943 

0.0881 

0.0985 

0,0922 

模 

型 

0. 55 

a 60 

0 . 65 

0 t 70 

0* 75 

a so 

0.85 

0.90 

0.95 

均值 

二元变量一收人 
一元变量—收人 

0. 1025 

0. 0963 

0. 1059 

0. 0998 

0. 1092 

0,1033 

0. 1120 

0. 1064 

0. 1141 

0. 1092 

0.1162 

0.1112 

0.1179 

0.1131 

0,1208 

0.1169 

0.1271 

0.1230 

0.0913 

0.0857 


注 :二元 变量模型包括教育和 种族; 一元变量模型只包括教育。表格内数字为只一 
QRM 的拟合优度测量值。 


小结 


本章讨论了分位数回归模型的推论统计。 QRM 系数的渐近推论(标准误 
和置信区间)类似于 LRM 系数的推论方法，只要经过必要的修改，便可以正确 
地估计误差方差。假设在社会科学研究中因变量常常出现偏态分布，那么关于 
渐近推论的假定是有问题的，所以需要一种替代性的推论方法。自举法出色地 
解决了这一问题。本章介绍了 QRM 系数的自举程序。自举抽样的理念是相当 
直观的，并且伴随着计算机技术的发展而变得十分实用。 

另外，本章简要讨论了与 LRM 相似的 QRM 拟合优度。 QRM 拟合优度的 
测量值尺⑷解释了在特定分位数方程中每个观察值所拥有的适当权重。是 
容易理解的，并且对它的解释类似于大家熟悉的 LRM 的记。 







第 5 章 I 分位数回归估计值的解释 


在本章中，我们讨论对分位数回归估计值的解释。首先，我们需要解释特 
定分位数的分位数回归拟合。中位数回归中的分位数可用来追踪位置的变化。 
其他具体的回归分位数，例如，第 0. 05和第 0. 95分位数，可以用作评估一个协 
变量如何预测因变量的条件非中心位置和形状的变化。我们同样关注序列回 
归分位数的一般情况，它可以反映因变量分布在形状上更微妙的变化。 

我们以 LRM 估计值的解释方法开始，接着在收人不平等的例子中解释 
QRM 的估计值。在这方面，我们将论证 QRM 方法优于 LRM 方法的两个主要 
优势: 它帮助我们模型化因变量分布中的非中心条件分位数及其形状变化。在 
第3章中，我们通过同一个收入样本解释各种各样的方法，但现在我们同时考虑 
教育和种族的影响。纵观全章，我们集中关注初始单位因变量的分析。对单调 
转换因变量估计值的解释和对因变量初始单位含义的理解将在第6章讨论。 

参照与比较 


为了帮助读者理解分位数回归的估计值,我们釆用参照与比较 (reference 
and comparison ) 的概念和一些关于效应量化的更一般的概念。参照是传统的 
回归术语，比较则表示在回归中协变量每单位增量的效应。 

在多数情况下，我们的兴趣在于进行组别间的比较。例如，我们希望比较 
受教育年限为11年的个体和那些受教育年限为12年的个体。或者，我们对黑 
人和白人的比较感兴趣。无论如何，我们从一组可能的协变量开始，例如，受教 
育年限为11年的所有黑人，我们将拥有这些特征的子总体设为参照组。然后， 



我们以特定方式修改其中一个协变量，例如，将 11 年教育水平改为12年，或者 
将黑人种族换成白人。那么，我们将与修改后的一组协变量相对应的子总体作 
为比较组。这两个组别比较的主要特征是修改了单个协变量，而保持其他协变 
量不变。 

当我们从一个参照组转换到一个比较组时，检验因变量的分布是如何变化 
的，有助于量化单个协变量的变化对因变量分布的影响效应。对于 LRM 而言， 
拟合系数可以理解为估计效应，即因变量分布的均值变化估计值，而均值的变 
化来源于一个连续型协变量的单位增量，或者虚拟变量值从0到1的变化。每 
一种变化都可以理解为参照组和比较组在均值上的估计差异。对 QRM 的解释 
与之类似，即参照组和比较组在特定分位数上的估计 差异； 当其他协变量保持 
不变时，这一估计差异来自一个连续型协变量的单位增量，或者虚拟变量值从0 
到1的变化。 

条件均值与条件中位数 

到目前为止，最容易理解的 QRM 是中位数回归模型(即第 0. 5 QRM ), 它用 
以表达在特定预测变量下因变量的条件中位数，并且中位数回归模型可作为拟 
合条件均值的 LRM 的一种替代方法。当两种模型试图模型化因变量分布的中 
心位置时，它们是适合相互比较的。 

收入 LRM 的估计值在 ED 变量上是6314美元，在 WHITE 种族上是11452 
美元。受教育年限每增加一年，在任何固定的教育水平上的收入均值将增加 
6314美元。由于线性假设的存在，对于任何固定教育水平下的家庭而言，条件 
均值的增加量是相同的。例如，受教育年限每增加1年，家庭的平均收入便增加 
相同的数量，不管户主拥有9年或16年教育年限。另外，教育年限每增加1年 
的效应，对于黑人和白人是同 样的: 如果模型中没有放入种族和教育的交互项。 
就参照组和比较组而言，我们可 以说: 尽管存在许多不同的参照组/比较组的组 
合，但是只存在两种可能的效 应:单 一的种族效应和单一的教育效应。 [ 1Q ] 

LRM 包含一个严格的假设 :从一 组到下一组，收入分布是在尺度和形状维 
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持不变时发生移动的。特别的，教育的正向效应反映了受教育年限每增加1年 
时，分布向右移动的幅度，而这是表现分布移动的唯一方式。相似的，收人 LRM 
中 WHITE 的系数表示从黑人的收入分布到白人的收人分布存在一个向右的 
位置移动，同样没有改变分布 形状: 黑人的平均收人比白人的低11452美元。 

下面我们从 LRM 转到 QRM， 集中关注中位数回归的特殊例子，我们需要 
记住 的是: 主要的不同在于我们是模型化条件中位数而不是条件均值。正如在 
第3章讨论的，中位数可能是一个更让人满意的测量分布中心位置的方法，尤其 
是当我们试图模型化条件分布的整体行为时。例如，这些条件分布可能是右偏 
的，这令它们的均值更多地反映了分布上尾部分的情况而不是中间部分的情 
况。作为一个具体的例子，位于上尾收入分位数的家庭可能对关于教育影响中 
位数收人的研究分析有着深远的影响。因此，这种分析可能反映了教育对条件 
均值的效应远大于对条件中位数的效应。 


表 5.1 收入的分位数回归估计值及其渐近标准误 
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特别的，教育水平的每一年增量对中位数因变量的效应对于所有种族和教育水 
平来说是相同的，而且种族变化的效应在所有教育水平上也是相同的。 

条件中位数模型中的 ED 系数是4794美元，低于条件均值模型的系数。这 
意味着增加一年的教育会让收入平均增长6314美元，但对总体的多数人来说， 
收入的增加并没有这么可观。相似的，在条件中位数的 WHITE 系数是9792美 
元，低于条件均值模型中相应的系数。 

括号里表示的是在 i . d 假设下的估计值的渐近标准误。如果 U 假设 
成立，教育对收入中位数的影响效应的标准误是92美元， r 比率为 52. 1,并且/> 
值小于 0. 001，这些证据拒绝了“教育对中位数收入没有影响”的虚无假设。 
WHITE 的系数的标准误为727美元，而且在 0. 001水平上具有统计显著性。 

其他个别条件分位数的解释 

有时候，相对于中心位置，研究者对分布的低尾或上尾部分更感兴趣。关 
注平等性的教育政策重视提高落后学生的考试成绩。在2000年，39%的八年级 
学生的学科成绩低于基础水平。因此，对于教育研究者而言，第 0. 39分位数比 
均值或中位数更有意义。福利政策以低收入群体为对象。如果全国的贫穷率 
为11%，那么第 0. 11收人分位数和低于这一水平的分位数对于福利研究者来 
说，比中位数或均值更有意义。研究者发现工会成员身份对位于收入分布低端 
的个案比对达到均值水平的个案有更大的回报 ( Chamberlain ， 1994)。另一方 
面，对于收入排在总体前10%的人群，在高名望的私人大学接受教育的情况更 
加普遍。研究有名望的高等教育的得益时，通常关注第90或更高的收入 
分位数。 

在表 5. 1中，19个分位数的 QRM 拟合系数可以用来检验教育和种族在不 
同收入分位数上的效应。= 11] 为了告知福利政策制定者，我们检验条件收人模型 
中第 0. 1和第 0. 05分位数上的教育和种族系数。我们发现 :在第 0. 1分位数 
上，受教育年限每增加1年，将使收入增长1782美元，在 0. 05分位数上，这一增 
量为1130 美元; 在第 a 1分位数上，黑人和白人的差距为4689美元，在 0. 05分 
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位数上，则为3197美元。对右端分布的教育回报率感兴趣的研究者，可以观察 
在第 0 . 9和第 0. 95分位数上的教育估计值。第 0. 95分位数的系数为9575美 
元，远高于在第0, 90分位数上的8279美元，这意味着有名望的高等教育对收入 
的贡献是不一样的。在 d 假设下，渐近的标准误表明教育效应和种族效应 
在非中心的分位数上是显著的。 

因为 U 是一个非常严格的假设，它假定因变量没有发生形状变化，我们 
应该采用更加灵活的标准误估计方法，如自举法。表 5. 2列出了基于500次再 
抽样自举程序上的二元协变量的参数点估计和标准误。自举的点估计与渐近 
估计相近，但它们在不同分位数上的变化幅度比渐近标准误更小，尤其是 ED 变 
量(参见图 5.1 和图 5. 2)。 


表 S .2 收入的分位数回归估计的点估计与标准误 (500 次再抽样自举法> 
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表 5. 3给出了点估计值、自举标准误和 p 值，这些数值有助于检验第 P 分 
位数估计值与中位数估计值、第 （1 一 />) 分位数估计值及第（/> + 0.05)(/>< 
0. 5) 分位数估计值是否等价。根据这些情况，自举法给出了比渐近线法更小或 
更大的标准误。例如，在中位数收入水平上，渐近线法给出的教育点估计是 
4794美元，标准误是92美元。而自举法计算的相应数值分别是4794美元和 
103美元。但在第 0. 05分位数上，与渐近线法相比，自举法给出了较低准确度 
的教育估 计值： 自举法标准误是80美元，大于渐近标准误 (36 美元)。 


表 5. 3不同收入分位数的系数等价检验 (500 次再抽样自 举法} 





P 

值 


分位数/变量 

系数 

与中位数系数 
有无差异 

与第 （1 —W 
分位数系数 
有无差异 

与第 (p + o. 05) 

分位数系数 
有无差异 

4 个系数有无 
联合差异 

第 a 05 分位数 






ED 

1130** 

(80) 

0. 0000 

0. 0000 

0, 0000 

0. 0000 

WHITE 

第 0. 10分位数 

3197** 

(265) 

0, 0000 

0, 0000 

0. 0000 

0. 0000 

ED 

1782 

(89) 

0. 0000 

0. 0000 

0. 0000 

0. 0000 

WHITE 

第 0. 15 分位数 

4689** 

(319) 

0. 0000 

0. 0000 

0. 0000 

0. 0000 

ED 

2315** 

(81) 

0. 0000 

0. 0000 

0. 0000 

0. 0000 

WHITE 

第 0.20 分位数 

5642** 

(369) 

0. 0000 

0. 0000 

0. 0018 

0. 0000 

ED 

2757** 

(56) 

0- 0000 

0, 0000 

0. 0000 

0. 0000 

WHITE 

第 0.25 分位数 

6657** 

(380) 

0. 0000 

0. 0000 

0. 4784 

0. 0000 

ED 

3172** 

(149) 

0. 0000 

0. 0000 

0. 0000 

0. 0000 




分位数回归棋型 


(续 表) 





P 

值 


分位数/变量 

系数 

与中位数系数 
有无差异 

与第 （1 一 p ) 
分位数系数 
有无差异 

与第（夕+ 0.05) 
分位数系数 
有无差异 

4个系数有无 
联合差异 

WHITE 

第 0.30 分位数 

6724 h 

(469) 

0. 0000 

0. 0000 

0. 0012 

0. 0000 

ED 

3571 # * 

(132) 

0. 0000 

0. 0000 

0. 0000 

0* 0000 

WHITE 

第 0. 35分位数 

7541** 

(778) 

0, 0000 

0. 0000 

0. 0142 

0 , 0000 

ED 

3900** 

(76) 

0. 0000 

0, 0000 

0. 0000 

0. 0000 

WHITE 

第 0. 40分位数 

8168** 

(477) 

0. 0000 

0. 0000 

0. 0035 

0. 0000 

ED 

4266** 

(98) 

0. 0000 

0. 0000 

0. 0000 

0. 0000 

WHITE 

第0,45分位数 

8744** 

(545) 

0,0028 

0. 0008 

0. 1034 

0. 0002 

ED 

4549 & 

(90) 

0. 0000 

0. 0000 

0. 0000 


WHITE 

第0, 50分位数 

9087 0 

(577) 

0. 0243 

0_ 0017 

0. 0243 


ED 

4794** 

(103) 



0. 0000 


WHITE 

9792 h 

(624) 



0, 0361 



注 :括号 内为标准误 ， H P < 0. 01。 

检验不同分位数估计值是否等价的瓦尔德测试的户值 表明: 在我们所选的 


检验中，教育效应在不同的分位数上是有差异的。这些检验比较了当前估计值 
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(即第 0. 05分位数)与其他3个估 计值: 中位数估计值、与之对应的另一端估计 
值(第 0. 95分位数)和邻近的更高分位数估计值(在 0. 10分位数）。与此相反， 
在我们所选的众多检验中，种族效应不存在统计上的差异。例如，在 0. 20分位 
数上的白人效应与在 0. 25分位数上的差异并不显著。尤其是在中位数之上的 
收入分位数的种族效应与相邻的第 Q + 0.05) 分位数的种族效应在统计上不 
存在显著差异，这一现象正好与教育相反，当 A 上升时，教育效应逐渐增大。 

你同样可以验证另一个虚无假设，即对于相同的协变量而言，多于两个分 
位数的系数是联合相等的。表 5. 3最后一列展示了相同协变量的四个分位数 
系数的联合检验结果。瓦尔德检验统计值接近于自由度为3的; f 2 分布。检 
验结果拒绝了虚无假设，并且论证了四个系数中至少有两个是彼此显著不相 
等的。 


通过 QRM 结果解释形状变化 


许多社会科学研究，尤其是关于不平等的研究，不仅需要说明位置变化，而 
且要考虑形状变化，因为在很大程度上仅仅关注位置会让我们忽略关于组别差 
异的许多信息。关于形状特征的最重要的两个考虑是尺度(或离散)和偏态。 

一个图像的视角 

因为我们的兴趣在于预测变量如何改变因变量的分布形状，所以我们通过 
QRM 来计算多元分位数的估计值。对形状效应的分析比对位置的分析要复杂 
得多，所以我们需要一个重要的权衡。一方面，形状分析可利用各个分位数的 
QRM 估计值的多重集 (multiple sets ) 来实现，而且它可以揭示比单独使用位置 
效应分析更多的信息。另一方面，描述这些信息是比较麻烦的，需要额外的功 
夫。特别的，对一系列分位数(例如:0_ 05, 0_10,…， 0. 90, 0.95) 的回归系数 
的检验是难以处理的，所以， QRM 估计值的图像化视角成为解释 QRM 结果的 
必要途径。 

特定协变量的 QRM 系数反映了协变量的单位变化对因变量分布的分位数 
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的影响。因此，一系列分位数的系数组可以用来确定协变量的单位增量是如何 
影响因变量的分布形状的。我们通过图像视角来检验系数，进而凸显影响形状 
变化的效应。对于一个特定的协变量，我们描绘其系数和置信封闭间 （ confi ¬ 
dence envelope ) ，这里: y 轴表示预测变量的效应身 </0 ，工轴表示分位数/>。 

图 5. 1提供了关于教育和种族(两者以各自的均值为中心)的收入分位数函 
数的图像。使用那些估计系数(见表 5. 1)，我们同样可以描绘拟合常数 （ con ¬ 
stant ) 的图像。 因为协变量以其均值为中心，所以常数 ( constant ) 表示在协变量 
均值上的拟合分位数函数，这可称为特殊设置 (typical setting )。 特殊设置下的 
条件分位数函数如果在中位数以下的斜率平缓而在中位数以上的斜率陡峭的 
话，那么它就是右偏的。 

ED 效应可以表示为，当种族效应维持不变，在任一教育水平下，教育年限 
每增加1年时，条件收人分位数的变化。教育效应是显著为正的，因为其置信封 
闭间并没有穿过0线(见厚平行线）。图 5. la 描述了一条向上倾斜的教育效应 
曲线 :教育 年限的单位增加效应对于所有第/>分位数数值都是正向的，还随着 p 
的增加而稳定上升。并且这种增加速度在第 0. 8以上分位数有所提升。 

WHITE 效应可以表示 为:当 教育水平保持不变时，将种族变量从黑人换成 
白人时条件收入分位数的变化幅度。作为白人的效应是显著为正的，因为0线 
远低于置信封闭间。与黑人相比，图 5.1( b ) 描述了另一条向上倾斜的白人效应 
曲线。在第 0. 15分位数之下和第 (X 90分位数之上的斜率比那些位于中间分位 
数的斜率更加陡峭。 

图 5. 2对应于图 5. 1，但图 5. 2的置信封闭间是基于自举估计得到的。我 
们观察到，图 5.2 中的自举置信封闭间相对于图 5. 1的渐近置信封闭间要更加 
平衡。我们从图 5. 1和图 5. 2可看到一个相似的形状变化模式。 

这些图像传达了与教育和种族效应相关的额外信息。首先，教育和种族在 
影响位置变化的同时，也影响着形状变化。如果只存在位置变化，那么增加1年 
的教育或将种族从黑人换成白人，将令所有的分位数的增量相同，从而导致 
P 图像接近一条水平线。然而，我们观察到的则是随着/>而单调递 
增，即当/> > g 时，有 gw > gw ,并且，这一性质告诉我们 :增加 1年教育或者 
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图 5.1 分位回归估计的95%置信区间渐进线（收入) 
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将种族从黑人变成白人对于高收入阶层的收入效应要大于低收入阶层。这一 
单调性同样具备尺度效应，因为它表明当 

之，将种族从黑人变成白人或者增加一年教育水平会增大因变量的单位尺 
度。 [12] 尽管这两个图看起来暗示了真实的变化将比位置和尺度变化更加 
复杂，但图像并不足以反映偏态的变化，因为偏态需要借助多元分位数来 
测量。 

现在，我们总结一下协变量对因变量效应的图像模式。平行线表明协变量 
的单位增量仅仅会影响位置变化;向上倾斜曲线表明条件因变量分布的尺度的 
增大，而向下彳頭斜曲线则表示尺度的减小。然而，图像的视角不足以展示偏态 
的变化。图像化提供了关于预测变量的变化是如何产生形状变化的一些证据。 
我们同样对变化的幅度和变化是否显著感兴趣。我们的下一个目标是从 QRM 
估计值中发展出测量两类形状变化的定量方法。 


尺度变化 

标准差是普遍使用的测量对称分布的尺度及离散程度的方法。然而，对于 
偏态分布，所选分位数之间的距离提供了比标准差更多的关于离散程度的有用 
信息。对于在0和 0. 5之间的第分位数，我们确定了两个样本分 位数： Q C1 ^ } 
(第 [1 — 户]分位数)和 (第 P 分位数)。 第 P 分位数间距， IQR (P) = Q a ~ p) 
- q (p \ 是测量离散程度的方法。这一数量描述了分布中间 a -2 P ) 部分的比 
例范围。当 a = 0. 25时，这一分位数间距便是四分位间距 JQR (0 25) - Q (a75) - 
d ( a 25> ，提供了分布中间50%的比例范围。而》的其他值，例如 0. 10、 0. 05、 
0.025,同样可用以捕捉一个分布两个尾端之间的离散范围。例如，使用 p = 
0. 10,第户分位数间距表示分布中间80%的比例范围。 

图 5. 3对比了一个参照组和一个比较组的情况，它们有着相同的中位数 
M 。 确定了 f 的数值后，我们便可以计算参照组的分位数间距 IQR r = U r - 
L r , 和比较组的 JQR C =U C —L c 。 然后，我们通过间距的差 (differencein-differ- 
ences) IQR C ~ IQRr 测量尺度的变化。在此图中，比较组的尺度比参照组的更 
大，即存在一个正向的尺度变化。 
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图 S .3 尺度变化 


转向我们的应用例 子:表 5. 4展示了两个模型下不同教育组家庭收人分布的尺 
度变化，一种方法使用样本分位数，即分位数直接从两组样本中计算，而第二种方法 
利用收入 QRM 的协变量拟合系数来实现。对于样本分位数，11年教育年限组的四 
分位间距是26426美元，12年教育年限组的则为34426美元。12年教育年限组的样 
本离散程度为8000美元，高于11年教育年限组。这一尺度变化可以通过计算两组 
的分位数间距差 Q (a75) - Q ca25> 而获得。我们看到教育年限从11年变成12年，四 
分位间距增加了 34426 — 26426 = 8000。其他分位数间距使用同样的方法，我们 
发现，对于样本中间的80%范围而言，其尺度增加了 15422美元,而对于中间的 
90%范围，则有19736 美元; 对于中间的95%范围而言，为28052美元。 

表 5. 4收入分布的尺度变 化:从 11年到12年教育年限 


基于样本 


分位数与 
分位数范围 

教育年限 =11 年 
(1) 

教育年限 =12 年 
(2) 

差异 

(2)-(1) 

基于 

模型 

0).025 

3387 

5229 

1842 

665 

0).05 

5352 

7195 

1843 

1130 

Qo . 10 

6792 

10460 

3668 

1782 

Qo . 25 

12098 

18694 

6596 

3172 

Qo . 75 

38524 

53120 

14596 

6598 

Qo . 90 

58332 

77422 

19090 

8279 

Qo . 95 

74225 

95804 

21579 

9575 

Qo . 975 

87996 

117890 

29894 

11567 
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(续表) 


分位数与 
分位数范围 


基于样本 


基于 

模型 

教育年限 =11 年 
(1) 

教育年限=12年 
(2) 

差异 

(2)-(1) 

Q ). 75 一 Qo. 25 

26426 

34426 

8000 


八八 

^ [* ?5—— ^ 0*25 




3426 

Qo. 90 — Qo. 10 

51540 

66962 

15422 


A 八 

P o! 90 一卢： in 




6497 

Qo. 95 — ' Qo. 05 

68873 

88609 

19736 


jS o! 95 ~ ^ o! 05 




8445 

Qo . 975 一 Qo . 025 

84609 

112661 

28052 


/\ /\ 

(3 l 975 — /? 0%25 




10902 


QRM 拟合为我们提供了估计尺度变化效应的替代方法。这里，我们用符 
号表示在一个第 p 分位数回归模型中某个协变量的拟合系数。这一系数表 
示协变量的单位增加所导致的任何特定分位数下的数值的增加或减少。这样， 
当协变量增加一个单位时，相应的第 > 分位数间距将改变 —卜 的量，这 
里第声尺度变化效应用 SCSW 表示。 

SCS( P) = IQRf - IQR^ = (Qc~ p) -Qc p) )- (Q^ ~Qr^ 

= ( 4 1 ， 一 (Q ( f —Q(f) 

- 卜， 一 卜 (当 p<0. 5) [5.1] 

如果我们拟合一个没有协变量交互项的线性 QRM， 那么尺度效应便不会 
依赖于特定的协变量设置(参照组）。当 SCS@ 等于0时，便不会出现尺度变 
化。而负值则表明增加协变量数值时会减小尺度，正值则指示相反的效应。 

使用方程 5. 1和表 5. 2的估计值，随着教育年限增加1年，总体中间50% 
部分的尺度变化是3426美元(将第0_ 75分位数的系数减去第 0. 25分位数的系 
数： 6598 — 3172 = 3426)。为什么这一尺度变化会小于观察到的尺度变化 
(8000 美元)呢？这里有两方面的原因。基于模型的测量是控制了其他协变量 
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(这里指种族)的部分测量。另外，基于样本分位数的尺度变化，是从两个特定 
教育组计算得到的，而基于模型的测量则考虑了所有教育组的情况。通过方程 
5. 1，我们可以将教育的 QRM 系数解释为总体的中间80%部分的尺度增加 
6497美元，中间90%部分则增大8445美元，而中间95%部分的增长幅度为 
10902美元(见表 5. 4最后一列）。 

我们可以用相同的方式从尺度变化上解释种族效应。在表 5. 2中，控制了 
教育后，白人的收人离散幅度比黑人的更大 ：对总 体中间50%部分而言，为 
12142—6724 = 5418,中间80%部分为 14049 — 4689 = 9360,而中间90%部分 
则为 17484 — 3197 = 14287。 

当保持原来的偏态不变时，尺度的变化可能成比例地伸展或者缩小位于中 
位数之上或之下的分布部分。而当原来的偏态发生变化时，它同样可以不成比 
例地伸展或者缩小位于中位数之上或之下的分布部分。而方程 5. 1无法区别成 
比例和不成比例的尺度变化。 

俄态变化 

一个与更大偏态相关的不成比例的尺度变化，表明存在对因变量分布形状 
的附加效应。第2章提出了直接测量分位差偏态 ( quantile~based skewness ) 的 
方法，即 QSK ， 定义为上位离散幅度与下位离散幅度的比率的值减去 1( 见方程 
2.2)。如果 QSK 大于0,分布为右偏，反之亦然。图 3. 2中关于教育组和种族 
组的箱图表明上位离散情况与下位离散情况的不对称。表 5. 5的中间部分(分 
位数排列)的第1和第2列分别描述了 11年和12年教育年限组的上位和下位 
离散情况。我们可以看 到:两 个教育年限组在样本中间的50%、80%、90%和 
95%部分都存在右偏的收人分布。 

当我们检验比较组的偏态是否不同于参照组的偏态时，我们需要寻找不成 
比例的尺度变化。图 5. 4描述了假设情境下关于右偏分布的一种不成比例的尺 
度变化。让 A ^* M C 分别表示参照组和比较组的中位数。参照组的上位离散 
为[^― M k ， 而比较组的则为 U c — M c 。 参照组的下位离散为 A 4— 而比较 
组的则为 M ，一 L r 。 不对称性可通过 （ Ur 一 M c )/ (队 一 抓）和 (M r —L r )/(M R 
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—h) 的比率得到。如果这一比率的比值等于1，即不存在偏态变化。如果它小 
于1，那么右偏的幅度在减小。如果它大于1，则意味着右偏的幅度在增大。以 
百分率表示的变化可通过将这一比率减去1而获得，我们称之为偏态变化 
(skewness shift) ，或者 SKS。 



下面看一下表 5. 5中的样本 SKS ^11年教育年限组和12年教育年限组的偏 
态变化。尽管我们从上一部分内容了解到高教育年限组的尺度大于低教育年限组， 
但是高教育年限组的右偏程度相对较低，因为样本中间50%部分的 SKS 是 一0. 282, 
中间80%部分为 一0. 248,中间90%部分为 一0. 283,中间95%部分为 一0. W5。 因此， 
各种分位数范围的偏态程度的降低幅度在 一19. 5%和 一28. 3%之间。 


表 5. S 收入的偏态变 化:增 加一年教育年限的分布情况 


分位数 


基于样本 



基本模型 


分位数 
(ED = 11) 

分位数 
(ED = 12) 

SKS (fi) 

QRM 

A 

QRM 

八 

a 

SKS {p) 

0,025 

3387 

5229 

— 0. 195 

665 

6900 

— 0. 049 

0. 05 

5352 

7195 

-0. 283 

1130 

9850 

-0. 047 

0. 10 

6792 

10460 

一 0. 248 

1782 

14168 

-0. 037 

0. 25 

12098 

18694 

一 0. 282 

3172 

24932 

—0. 016 

0. 50 

20985 

32943 


4794 

42176 


0. 75 

38524 

53120 


6598 

65745 


0. 90 

58332 

77422 


8279 

94496 


0. 95 

74225 

95804 


9575 

120104 


0. 975 

87996 

117890 


11567 

150463 
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(续表） 



基于样本 


基本模型 


分位数 


分位数 
(ED = 11) 


分位数 
(ED = 12) 


SKS lp) 


SKS (fi) 


分位数范围 

Qd. 75 — Qo. 50 

17539 

20177 

Qo. 50 一 Qo. 25 

8887 

14249 

0).90 一 Q). 50 

37347 

44479 

Q>. so 一 Qd. io 

14193 

22483 

Qb. 95 — Qa. so 

53240 

62861 

Qo. 50 一 Qo. 05 

15633 

25748 

Qd. 975 _ Qo. 50 

67011 

84947 

Qo. 50 一 Qo. 025 

17598 

27714 


注 :基于 样本的 SKS (fi) = Ka i - p) — 從°‘ 5> )/(0^) - Qfe a5) )]/[(0：°. 5> 一 戍、 )/( Q ^ a5) 

一必))] _ 1 

对于总体的中间50%部分，我 们有： 

SKS (a25) = [(0^°* 75) — 0^ 5 ))/( 必 . 75 ) -Qr* 5) >]/[(Qc ，5) -Q^* 25) )/(Q^ 5) -q^' 25) )]-i 
=[20177/17539]/[14249/8887] 

= [1.150/1. 603] -1 
0. 283 

基于模型的偏态变 化是： 

SXS (0 - 25> = -n-p)_^(0.5>_ -<0.5) )/( -(l--p)_ -(0.5))^/ 

[(^ <a5) + a (a 5 ) - 卜 - a (p) )/(a^ s) ~ 

对于总体的中间50%部分，我 们有： 

SKS (0 . 25 ) = [(^C0.75> + -(0.75)_^(0.5)_ -C0.5) )/( -(0.75)_ -(0.5)_ 

^(0.25) _ ^CO. 25) )5)_ ^(0.25) )] — 1 

=[(6598 + 65745 - 4794 - 42176)/(65745 - 42176)]/[(4794 + 42176 - 
3172 - 24932)/(42176 - 24932)] — 1 
= [25373/23569 ]/[18886/17244] — 1 
= [L 0771/1. 094] — 1 
=— 0. 016 

我们的任务是利用 QRM 系数获得基于模型的 SKS ， 它涉及参照组的条件 
分位数。我们将有代表性的协变量组确定为参照类(估计常数^)。总体中间的 
100(1 — 2/0 % 部分的 SKS 为： 
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SKS ip) 


rQ ( c l ~ p) 

-q ( c °' 5) - 


r 及 (1—/>)+ f (m 备 (。. 5)_^C0.5) 

n 

Lq^ 

~q ( r °- 5) - 

_i_ 

_ 

f (0‘5) 
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[5_2] 


需要注意的是，因为我们求两个比率的比值，所以 SKS 有效地排除了成比 
例尺度变化的影响。当 SKS = 0 时，表明不存在尺度变化或者成比例的尺度变 
化。这样， SKS 可以测量在成比例尺度变化之上和之外的偏态程度。 SKS<0 
表示由于解释变量的影响而导致右偏程度的减小， SKS >0 则表明右偏程度的 
增大。 

表 5. 5的右边部分(模型部分)展示了教育的估计系数 ($ ) ，典型协变量组 
的估计常数 W ) 和基于模型的 SKS 。 从所有4个被选的 SKS 来看，教育年限增 
加1年，会轻微减小右偏程度。变化百分比的减小范围在一 1. 6%和一 4. 9%之 
间。这些基于模型的估计值远小于基于样本的 SKS ， 因为基于模型的教育净效 
应是来自典型协变量设定的一种变化，即控制了种族效应。 


表 5.6 从黑人到白人收入分布的偏态变化(基于 模型) 


- P 

QRM 良 

QRMa 

SKS p 

0. 025 

2576 

6900 

—0. 076 

0. 05 

3197 

9850 

—0. 087 

0.10 

4689 

14168 

-0. 085 

0. 25 

6724 

24932 

— 0. 066 

0,50 

9792 

42761 


0. 75 

12142 

65745 


0. 90 

14049 

94496 


0. 95 

17484 

120104 


0.975 

22092 

150463 



对于白人组而言，其条件收入的偏态较小(见表 5. 6): 总体的中间50%部分 
的 SKS 为 一6. 6%，中间80%部分为 一8. 5%，中间90%部分为 一8, 7%，而中间 
95 %部分则为 一7, 6%。它表示相比于总体的中间50%部分，中间80%和90% 
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部分的右偏程度的减小幅度更大。这一发现 表明： 白人的中上阶层的收入离散 
程度要大于黑人的中上阶层。 

至此，我们已经提出了协变量对因变量不平等程度的影响效应的总体评估 
方法，当位置、尺度和偏态的变化在统计上显著时，这一方法可检验这些变化的 
符号的组合情况。一个正向而显著的位置变化表示比较组的中位数髙于参照 
组的中位数。一个正向而显著的尺度变化则表示比较组的离散程度大于参照 
组的离散程度。并且，一个正向而显著的偏态变化表示比较组的右偏程度比参 
照组的大。 

如果我们将参照组编码为比较组，将比较组编码为参照组，我们会得到三个 
负的变化值。因此，这些变化的符号组合，我们称之为“同步” (in^sync) 变化，使得 
总体的收入分布更加不平等和底层的收入水平更加集中。当由一个预测变量产 
生的这三种变化是同步的时候，这一预测变量经由位置和形状变化等两方面加剧 
了不平等的程度。如果这些变化的符号是不一致的，则说明预测变量对因变量的 
位置和形状的改变是朝着相反的方向进行的，并且预测变量对因变量不平等程度 
的总效应被削弱了。我们将这种情况称为“不同步”模式(⑽ of sync )。 

表 5. 7总结了我们收入例子的总体估计情况，还包括自举置信区间。如果 
这一置信区间在95%显著水平下包含了 0值，那么我们就不能确定变化是正向 
的还是负向的。在表 5. 7中，只有一个变化统计值是不显著的(对于总体的中间 
50%部分的白人 SKS )。 

表 S .7 形状变化的点估计和95%置信区间:500次再抽样自举法 


变量 

位置 

SCS 

SKS 

SKS 

SKS 

SKS 

(0. 05) 

(0, 025—0. 975) 

(0,025—0, 975) 

(0,05— 0, 95) 

(0.10—0. 90) 

(0. 25-0. 75) 

收人 

ED 

4794 

10920 

-0. 049 

-0. 046 

-0. 037 

—0.017 

下限 

4592 

10162 

—0.056 

— 0_ 053 

-0. 044 

_ 0. 028 

上限 

4966 

11794 

-0. 041 

—0, 038 

-0. 029 

一 0. 005 

WHITE 

9792 

19027 

-0. 079 

-0. 090 

-0. 088 

-0. 067 

上限 

9474 

10602 

-0. 151 

-0. 147 

-0. 152 

一 0. 136 

下限 

10110 

26712 

—0. 023 

-0. 037 

-0. 024 

0,005 
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从表 5. 7可以看到，教育年限增加1年，导致了正向的位置和尺度变化，以 
及负向的偏态变化。这一模式是不同步的。相似的，作为白人则导致正向的位 
置和尺度变化，以及负向的偏态变化，同样表现为不同步模式。因此，这一简单 
的模型告诉我们，高教育年限和作为白人是与更高的收入中位数和更大的收入 
离散范围相关联的，而低教育年限和作为黑人的收人分布的偏态程度更大。如 
果这一简单模型是正确的，则意味着教育和种族差异都不会加剧收入不平等的 
程度。当通过“同步”或“不同步”的效应来概括 QRM 的估计情况时，这一例子 
说明了将变量进行分类的价值所在。一旦我们确定了涉及同步性的变量效应， 
如上述教育和种族变量时，我们就可以相当容易地判断这一变量是否对分布的 
不平等程度有所贡献。 


小结 


本章提出各种方法解释分位数回归模型 ( QRM ) 的估计值。除了检验协变 
量对特定条件分位数的效应外，例如中位数或更低或更高位置的分位数，我们 
还扩展到关于分布的解释。我们通过例子讲解了 QRM 估计值的图像解释和用 
QRM 估计值测量形状变化的定量方法，包括位置变化、尺度变化和偏态变化。 
家庭收人的例子说明我们可以直接利用 QRM 的估计值来分析协变量对收人不 
平等的效应。 

这一章集中关注对初始单位因变量下的 QRM 的解释。这些解释方法可以 
直接应用到线性转换的因变量上。然而，为了得到更好的模型拟合，偏态的因 
变量经常需要进行单调转换。例如，对数转换是右偏分布最常用的一种转换方 
式。根据因变量表现形式的不同——是初始尺度还是对数尺度，对效应估计值 
的解释也会有差异。另外，因为一个模型的分析方法用在另一个模型上可能是 
无效的，所以对建模方式的选择十分重要。由于这一原因，我们将在第6章集中 
讨论由因变量的单调转换引出的具体话题。 



第 6 章 I 单调转换 QRM 的解释 


当拟合回归模型时，我们常常对右偏的因变量进行对数转换，以保证模型 
假设在最低程度上被满足。对数转换是实用的，因为它允许以相对方式对预测 
变量效应进行解释。相似的，对左偏的因变量取平方形式(或者其他大于1的乘 
方)可使新的分布更加对称。这些非直线的单调转换虽然可以改善模型的拟合 
程度，但不可以维持原来的分布形状。当模型化与特定协变量的变化量相关联 
的位置和形状变化时，在初始尺度上分析这些变化比在单调转换尺度上更有意 
义。因此，为了实现对单调转换后的因变量的 QRM 进行更具实质意义的解释， 
我们需要从转换尺度系数上获得协变量在初始尺度上的效应。本章将通过对 
数转换的例子讨论两种可以实现这个目标的方法。这些方法可以应用于因变 
量的任何单调转换形式。 


对数尺度上的位置变化 


我们首先从位置变化开始。模型化因变量中心位置的一种方法是考虑涉 
及教育和收人对数的条件均值模型。表 6. 1表明教育水平每增加一年将使条件 
均值收入提高到， 128 = 1. 137个单位，即增加 13. 7%。表 6. 2中（中间列为 
声 = 0, 5) 与之相应的中位数拟合模型的系数则为 0. 131，这表明教育增加一年 
将使收入的条件中位数增加到， 131 = 1. 140个单位，或者增加14%。按相对值 
计算，教育效应对条件中位数的影响更强，而以绝对值衡量，教育效应对条件均 
值的影响更强，正如第5章所示的。 

因为增加一个百分比的概念需要详细说明参照组，所以当预测变量是类型 
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表 6.1 对数收入的经典回归估 计:教 育和种族效应 


变 量 

系 数 

ED 

0. 128“ 


(0. 0020) 

WHITE 

0. 332” 


(0. 0160) 

Constant 

10. 497** 


(0. 0050) 


注: 括号内为渐近标准误 h /> < 0. 01。 

变量时，即代表组员身份时，我们要谨慎选择参照类型以方便解释结果。例如， 
假设我们拟合了一个模型，将收人对数表示为关于种族(黑人/白人)的函数，用 
0表示黑人，1表示白人。我们的拟合模型 LRM (表 6. 1) 表明，系数 0. 332表示 
白人的收入高于黑人的量为 e ° 332 = 1. 393,即收入增加了 39. 3%。另一方面， 
如果我们釆用相反的编码，用0表示白人，1表示黑人， LRM 的线性同变性质告 
诉我们，黑人的系数应该为一 0. 332。这里，对黑人负向系数的解释并不等同于 
收入减少313%。相反，这个量会是^ ) 332 =0. 7 1 7 ，即收入减少28.3%。这一 
点在更大数值的系数上将表现得更加明显。例如，在第一个模型中的系数2,表 
示白人的收入将比黑人增加639%，而在第二个模型中，系数则为一2,意味着黑 
人的收人比白人减少 86. 5%。我们必须记住的是，当因变量进行对数转换后， 
改变虚拟变量的参照组会产生两种不同的结 果:系 数改变了符号，而百分比的 

改变则转化为倒数(+ = = °' 135 和 0 • 135 — 1 = 0 . 86 5)。 

从对数单位回到初始单位 

因变量的对数转换提供了一种分析技术和方法，从而获得对数据更好的拟 
合效应和以相对形式解释估计值。 

在初始单位上的乘法计算成为对数单位上的加法计算。然而，对数转换后 
的因变量的线性函数明确说明误差项为可加的而不是可乘的，因此改变了原先 
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* 

本 

CO 
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eg 
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(0. 020) 

11.402** 
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误差项的分布。另外，使用对数转换有着明显的缺点，那就是它大大地扭曲了 
测量单位。在关于不平等的研究中，对数转换的效果是人为地缩小了不平等的 
表现，因为它大大缩短了分布的右尾部分。特别是，我们对模型化初始单位下 
因变量的中心位置的影响效应更感兴趣，而不是在对数转换形式下。 

对数转换因变量的位置移动导致了初始单位因变量的分布发生怎样的变 
化呢？这一答案取决于位置估计值的选择。在条件均值的案例中，对数单位的 
估计值无法提供关于初始单位下的变化信息，反之亦然。只有线性转换拥有同 
变性质，这就可以通过一个随机变量的均值来计算其转换后的均值。因为对数 
转换是非线性的，所以条件均值收人不会是对数收入的条件均值的指数函数， 
正如我们在第3章说明的。实际上，在根据对数收入模型的系数以绝对形式计 
算协变量效应的过程中，不存在简易或者闭型解的表达式。相比之下，中位数 
回归模型则适合得多。对因变量进行单调转换时，条件中位数亦随之转换。 

一般地说， QRM 的单调同变性质保证了对数转换因变量的条件分位数等 
同于初始单位因变量的条件分位数的对数形式。当这一单调同变性质在总体 
水平上成立时，由于对数转换形式的非线性特征，将估计值变回原型将复杂得 
多。麻烦的是，对于连续型变量，受协变量影响的因变量分位数的变化比率取 
决于这一协变量的真实数值。在类型变量的情况下，组别身份的变化效应同样 
取决于协变量的数值。无论在哪种情况下，关于协变量对因变量分位数的影响 
效应，我们必须给出一个准确的含义。我们叙述了解决这一问题的两种方法。 
第一种需要利用协变量的特定数值，我们称之为典型设定值 （ Typical-Setting 
Effects , TSE )。 第二种是均值效应 (Mean Effect ， ME ) ，即在总体中所有相关 
个案上，对协变量影响条件分位数的效应取平均数。 

典型设定值 

我们对协变量在绝对形式上影响因变量的效应感兴趣，而处理的方式是确 
定协变量在典型设定数值上的效应。一种相对直接的方法，是将这一典型设定 
值看作协变量均值的矢量。如果因变量的均值被表达为协变量的非线性函数， 
那么在估计其效应时，这便是一种普遍的做法 
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下面，我们以二元协变量的例子解释这一想法。从这里，你会了解到如何 
处理多元协变量的情况。用: r 表示一个连续型协变量(例如， ED )， d 表示一个 
虚拟变量(例如，白人 WHITE )。 在本章节的后半部分，我们确定一个特定值 
Po 在拟合的第/>分位数回归模型下，我 们有： 

Q cp ) ( log ^ I d ) = a - + [6. 1] 

但是，常数项 P 〜可被解释为在: r = 0和 d = 0的情况下，因变量的第分位数的 
一个估计值。由于协变量常常是非负的,所以对数值的选择不具有特殊的意 
义，这使得对的解释变得有些无趣。另一方面，如果我们将所有协变量以其 
均值为中心，然后拟合第 P 分位数回归 模型： 

Q (/>) (log y \ Xj d) = a ip) +^ ix ~ x ) + (d — d) [6. 1’] 

这为参数提供了有着不同解释的另一个拟合值 :对数 转换因变量的第户分 
位数在协变量特定数值下的一个估计值。其他拟合系数及/和/?/在方程 6. 1和 
方程 6. f 中是相同的。 

现在思考 一下: 当我们修改其中一个协变量模型时，结果会发生什么变化， 
例如，我们从典型设定中将 r 增加一个单位，并维持其他协变量在它们的均值 
水平上不变。对数因变量的拟合第/>分位数等于常数项和协变量: c 系数 的和: 
对于 x ， 为 S + 仏； 对于山 则为<? +瓦。 

我们希望知道这些改变对初始单位因变量的影响。 QRM 的单调同变性质 
告诉我们，如果我们知道对数单位因变量的分布的分位数，这一分位数的指数 
形式便是初始单位上的分位数。特别的，在典型设定中(所有协变量取均值）， 
对数单位上的条件分位数的指数转换产生初始单位上的拟合条件分位数 :，。 
相似的，在修改的协变量数值下，对数单位拟合的条件分位数的指数转换分别 
等于 e 喊 和。根据协变量的单位变化修正过的条件分位数减去在典型设 
定下的拟合分位数，将得到该协变量在初始单位上的效应，由协变量均值计算 
得到 :对于 X ，为，;对于 A 则为，& — /。照这样，我们可获得协变量 
在因变量的任意条件第/>分位数的效应。 

为了理解协变量对因变量的潜在影响，我们最好将对数单位系数转换回初 
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始单位系数。如果我们打算使用渐近方法，我们必须釆用 delta 方法 （delta 
method )， 而且如果没有封闭解，求解过程将会十分复杂。使用分析方法来推断 
这些值是不切实际的。相反，我们釆用灵活的自举法(在第5章所描述的)来获 
得这些值的标准误和置信区间。 

表 6. 3对数收入 QRM 在典型设定效应和均值效应下的 
点估计和95%置信区间 (5 ⑽次再抽样自举法） 




ED 



WHITE 



效应 

CI 下限 

CI 上限 

效应 

CI 下限 

CI 上限 

典型设定效应 

0.025 

660 

530 

821 

4457 

3405 

6536 

0. 05 

1157 

1015 

1291 

4978 

4208 

6400 

0. 10 

1866 

1747 

1977 

7417 

6062 

8533 

0.15 

2486 

2317 

2634 

8476 

7210 

9951 

0.25 

3477 

3323 

3648 

10609 

8839 

12378 

0. 50 

5519 

5314 

5722 

15051 

12823 

17075 

0. 75 

7992 

7655 

8277 

18788 

15669 

21647 

0. 85 

9519 

9076 

9910 

19891 

16801 

22938 

0. 90 

11108 

10593 

11676 

22733 

18468 

27444 

0. 95 

14765 

13677 

15662 

28131 

21181 

34294 

0. 975 

18535 

19973 

19706 

41714 

33344 

51297 

均值效应 

0. 025 

697 

554 

887 

2719 

2243 

3424 

0.05 

1241 

1073 

1396 

3276 

2875 

3868 

0. 10 

2028 

1887 

2163 

4792 

4148 

5284 

0. 15 

2717 

2514 

2903 

5613 

5007 

6282 

0.25 

3799 

3620 

4008 

7228 

6343 

8089 

0. 50 

5965 

5716 

6203 

10746 

9528 

11832 

0. 75 

8524 

8114 

8865 

14141 

12162 

15858 

0,85 

10082 

9581 

10559 

15429 

13362 

17329 

0. 90 

11772 

11157 

12478 

17664 

14900 

20491 

0. 95 

15754 

14476 

16810 

21875 

17207 

25839 

0,975 

19836 

18007 

21235 

31419 

26192 

37014 


表 6. 3的上半部分 ( TSE ) 展示了绝对形式下的 ED 和 WHITE 对收入的典 
型设定效应，由所有协变量的均值计算得到，和通过自举法估计得到的95%置 
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信区间。对于中位数而言，当种族在平均值处保持不变时，在总体的教育平均 
水平之上增加 1 年，将使收入增长 5519 美元。将组别身份由黑人换成白人，保 
?寺教育在平均值处不变，将带来 15051 美元的收入增长。教育和种族的典型设 
定效应在低尾处比在上尾处更弱。这些效应比表 5. 1的结果(初始单位收入的 
拟合)更大。需要注意的是，收人模型和对数收入模型是从不同的拟合方式而 
得到的两种不同的模型。同样，典型设定效应的估计是基于协变量的均值，然 
而从拟合初始单位收人得来的系数适用于协变量的所有设定。 

均值效皮 

典型设定方法简单易行，而且提供了关于协变量单位变化对因变量的影响 
效应的信息。然而，它仅仅考虑到协变量均值的改变所带来的效应。由于这一 
效应在协变量数值范围内会发生变化，对特定数值的使用可能会导致事实的歪 
曲。因此，我们引进另一种可能的方法，即从相反的顺序取平均值:首先计算对 
于协变量每一个可能的取值，协变量单位变化的效应，然后对数据中所有协变 
量数值的效应取平均值。当因变量的分位数函数以非线性的形式依赖于协变 
量时，我们打算使用以上方法，例如，在方程 6,1 和 6, 1 A 中， log(y) 被表达为协变 
量的一个线性函数。相反，如果分位数函数是协变量的一个线性函数，那么这 
两种取均值的方法会产生相同的结果。 

对于二个连续型协变量工和任意/>，我 们问: 如果他/她的 x 增加一个单位， 
其他协变量保持不变时，一个(随机)个案的第 f 条件分位数会改变多少？然 
后，我们对参照总体中的所有个体的改变量取均值。继续以二元协变量的模型 
为例，我们可以确定由于 x 的单位增量而带来的分位数变 化为： 

^Q ip) (y I -r+1, d)~Q cp) (y | d) [6. 2] 

并且平均的分位数变化等于 工 的单位增量在 f 上的均值效应，由 MEf 表示： 

ME ( f = — 2 LQ iP)< ^yi I ^ +1, d t ) —Q ip) {yi I Xi, di)~] [6. 3] 

n i-i 


在我们的模型，即对数收入关于教育和种族的函数中，教育是一个定距变 
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量。计算方程 6. 3 要求： 

(1) 通过 U ,，4) =/0+以，计算得到每个个案被估计 
的第条件分位数； 

(2) 通过 I 4 + 1， 4) •，计 算得到相应的第户 

条件分位数，如果他/她的教育年限增加 一年； 

(3) 求这两项的差 ； 

(4) 对这些差取平均值。 

对于一个二分协变量，我们希望知道条件分位数的变化，当个体将他/她的 
组别身份从 d = 0换成 d = 1时，保持其他协变量固定不变。在这种情况下，只 
有当 d = 0的子群体是相关的，因为将其他组别包括进来将同时改变其他协变 
量。这样，对于二分^而言，分位数的差异 便是： 

mTo.i l )- Q ( p ) ( y ) [6.4] 

并且 c / 的均值效应，表示为 ME ^。, i ，等 于： 

1 = 士 Z ) (M I 1) — (： v ,- I 工” 0)] [6. 5] 

Wo i t d,=0 

这里 Wo 表示样本中 4 = 0 的个案数量。 

在我们的例子中， WHITE 是一个虚拟变量。计算将被限制在样本的黑人 
(WHITE = 0)。步 骤是： 


(1) 通过 Q cp> (^ U - d t = 0) = ,计算得到每个黑人的第户 

条件分位数； 

(2) 通过丨不■，乂 = 1) = ,计算得到相应的第条 

件分位数，如果黑人变成了 白人； 


(3) 求这两项 的差； 

(4) 对这些差取平均值。 
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表 6. 3的下半部分 ( ME ) 展示了教育和种族的均值效应及它们的95%置 


信区间。 ED 和 WHITE 的效应都随着增加。教育效应的大小与典型设定 


效应相似。然而， WHITE 的均值效应随的变化比典型设定效应要广阔 
得多。 

极微效应 


对于上述描述的典型设定效应和均值效应这两种方法，我们通过协变量的 
单位变化来量化它对因变量的效应。当因变量的分位数函数是协变量的一个 
非线性函数时，这两种方法都是为应付这种情况而设计的。一般而言，这种计 
算得到的效应并不与单位的大小成比例。例如,教育的单位可以是半年而不是 
一整年，并且教育年限增加半年的效应并不等于增加一整年教育效应的一半。 
另外，一些协变量可以被看作是完全连续的。例如，在健康状况的研究中，我们 
可以将收人看作一个协变量。 

一种替代性方法是考虑协变量影响分位数的极微小的变化比率，那就是，通过 
导数代替有限的差异。例如，假设我们方程 6. 1的一个模型，给出 G \ x , d ) = 
e ? 我 们有： 


£Q^(y\x 9 d) 





因此，使 x = 和^/ = J ， 典型设定效应的相似体则变成 \ X , d ) = 
把，。 相似的，均值效应的相似体的形 式为： 

ME ( f = 丄 2 fQ^\y\x i .d i ) = 丄 2 把 

71 ; = 1 CIX 71 - 1 


对数单位系数的图解 

图 6. 1是对数单位系数的图解,分别展示了对数收入 QRM 中教育 ( ED )， 
白人 ( WHITE ) 及其常数的曲线。在图 6. 1中，典型设定下对数收入的条件分 
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20 000 


( a ) 教育 



0 0 . 1 0 . 2 0 , 3 0 . 4 0 . 5 0 . 6 0 . 7 0 . 8 0. 9 1 


位数函数拥有类似于正态分布的分布形状，因为其中位数以上和以下的斜率是 
相近的。这一发现表明对收入作对数转换缩短了右尾分布，使得经过转换的分 
布接近于正态分布。由于对数系数可被理解为百分比的改变，一条水平直线应 
该表明不发生偏态变化情况下的纯单位转变。任何非水平的曲线要么表示偏 
态变化，要么表示纯位置变化，但它无法告诉我们确切的是哪一种变化。我们 
观察到 ED 和 WHITE 曲线是非水平的，所以我们知道它们的效应不纯粹是单 
位的改变。 

然而，我们并不确定这些曲线是表示纯位置的变化还是意味着另外的偏态 
变化。如果非水平曲线的不确定性是基于对数单位系数的，那么在初始单位上 
重新计算协变量的效应来分析形状的变化便十分重要。相比之下，基于绝对效 
应的曲线图可以告诉我们，协变量是否同时导致位置和单位的变化，以及是否 
会引起偏态变化。例如，釆用典型设置效应 ( TSE ) ，我们可以检视协变量在改变 
因变量形状方面的作用。 

为了同时捕捉位置和单位的变化，图 6. 2展示了对数收入 QRM 中绝对形 
式下的 ED 和 WHITE 的 TSE 以及它们的置信封闭间。 TSE 的图像形状与 
图 5. 1的十分相似。 ED 和 WHITE 都对位置变化、单位变化和可能存在的偏 
态变化有 影响。 


0 | 0 | 0 < 
o o o 

5 0 5 
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( b ) 白人 


50 000 h 


0 0 . 1 0. 2 0 . 3 0. 4 0 . 5 0. 6 0 . 7 0. 8 0. 9 1 

P 

图 6. 2从收入对数 QRM 得到的 TSE (绝对数) 的图 形显示 

从对数单位拟合测量形状变化 

因为在初始单位下我们更容易解释形状变化，所以最佳的方法是从对数单 
位系数中计算初始单位下的形状变化。根据单位变化方程 5. 1和偏态变化方程 
5. 2,参照组的尺度和偏态情况是进行比较所必须的。当对初始单位的因变量 
进行拟合时，这些系数就失去了任何参照。然而，当对对数单位的因变量进行 
拟合时，协变量的数值变化所带来的效应是与不同的参照组相关联的。因此， 
当对对数单位的因变量进行拟合时，我们需要一个固定的参照组，以便理解形 
状的变化情况。典型设定效应可以很好地达到这一目标。将表 6.3 的 TSE 结 
果代入方程 5. 1和方程 5. 2中，我们通过自举再抽样样本计算出尺度变化、偏态 
变化和它们的置信封闭间，如表 6. 4上半部分所示。 ED 和 WHITE 在0。.。 25 到 
Qa 9 75 的范围内都具有正向的尺度变化效应，和在0。. 25 到 Qo.75 , QaK ) 到 Qa 9 。， 
Qo .05 到 Qa 95 , 0>.。 25 到仏 975 的范围内具有负向的偏态变化效应。而这些测量值 
的95%置信区间表明 ED 和 WHITE 的 SKC 是显著的，但是 ED 在四种分位数 
差中的 SKC 都是显著的，而 WHITE 只有在两种情况下 SKC 才是显著的。由 
于这些测量值是在协变量的均值处估计得到的，而且对数收入模型不同于收入 
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模型，所以这些测量值的大小并不等于第5章中提到的那些测量值。但是，我们 
认为 :这些 变化值的符号和总体的效应模式应该保持一致。不管是对收入还是 
对数收入进行拟合，与每一个协变量相联系的位置和形状的变化并不是同 
步的。 


表 6 . 4对数收入的经典回归估计(教育和种族效应) 


变量 

SCS 

(0, 025—0. 975) 

SKS 

(0. 025—0, 975) 

SKS 

(0. 05—0. 95) 

SKS 

(0.10—0. 90) 

SKS 

(0. 25— 0. 75) 

典型设定效应 

ED 

17861 

-0.016 

— 0.017 

—0. 025 

-0,015 

下限 

16325 

一 0* 028 

-0. 029 

-0. 036 

— 0. 029 

下限 

19108 

-0. 006 

—0, 006 

—0. 014 

0.002 

WHITE 

37113 

-0. 010 

— 0.118 

—0. 111 

-0. 090 

下限 

29014 

-0. 129 

-0. 194 

—0. 193 

-0. 199 

上限 

46837 

0.054 

-0. 022 

—0. 015 

0. 047 

均值效应 

ED 

19118 

一 0, 016 

-0. 014 

— 0. 025 

—0. 015 

下限 

17272 

—0. 028 

—0. 030 

—0. 036 

— 0. 029 

上限 

20592 

— 0. 006 

— 0. 006 

—0,014 

— 0_ 002 

WHITE 

28653 

-0. 046 

-0, 114 

-0. 107 

-0, 084 

下限 

23501 

—0.128 

—0. 181 

-0. 175 

-0. 174 

上限 

34348 

0,042 

-0.030 

— 0. 026 

0.031 


TSE 可以用来直接计算协变量对尺度和偏态变化的效应，而不能计算均值 
效应。但是，协变量对尺度变化和偏态变化效应的导数与均值效应的导数相 
似。用 S 表示形状的测量值(尺度或偏态）， AS 表示形状变化的测量值。对于 
连续型协变量而言， AS 的导 数是： 


AS <P> = 

S ( 〜 | x + 1， d )~ S ip) (y | a ：, d ) 

[ 6 . 6 ] 

而对于二元协变量， 则为: 




= S ip} d = D — S (/,) ( 3 /, d = 0) 

[ 6 . 7] 


对条件分位数的均值效应采取相同的步骤，我们可以从对数收入 QRM 中 
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计算尺度变化和偏态变化的均值效应(见表 6. 4的下半部分)。教育年限增加一 
年导致正向的尺度变化，这与基于 TSE 的效果相似。 WHITE 对尺度变化有正 
向效应，而且它的大小比基于 TSE 的效应要大。而在 ME 和 TSE 之间，教育和 
种族对偏态变化的效应是非常相似的。 ME 下的总体的效应模式也不是同步 
的，这和 TSE 的情况相同。 

小结 

本章讨论了 QRM 中由于因变量的非线性单调转换而出现的解释问题。由 
于 QRM 的单调同变性，我们得以重新计算基于因变量分布的初始单位之上的 
协变量效应,而这在 LRM 中是不可获得的。虽然如此，这一重新计算需要特殊 
的方法。本章提出了两种方法。典型设定方法在计算上相对简单，而均值效应 
方法则稍微复杂一些。两种方法都涉及对协变量数值取平均数，但以不同的规 
则进行。典型设定效应和均值效应都是在谈论整个样本或子样本。研究者应 
该选择最适合特定研究问题的方法。 

下一章提供了本书 所介绍 的技术的一个总结，通过将它们应用到真实的研 
究问题中来阐述。在应用中，我们比较了 1991年和2001年美国收入不平等的 
来源，讲述了釆用 QR 分析的动机和怎么按步骤进行，并给出了全面的 Stata 
命令。 



第 7 章 I 实例=1991年和2001年的收入不平等 


在前面章节中使用的实证说明只限制在一个或两个协变量例子上。本章 
将本书的技术应用在一个特别议题 上:从 1991年到2001年间家庭收入不平等 
的持续和扩大。我们的目标是通过具体的实证例子系统地概括本书发展出的 
统计技术。我们从美国“收入和项目参与调查 ( SIPP )” 中提取1991年的数据， 
并将之合并到之前使用的2001年数据。家庭收人根据2001年固定币值进行了 
调整。我们明确指定了一个精简模型，即家庭收入是5大因素 (13 个协变量)的 
一个函 数:生 命周期(年龄和年龄的平方），种族/民族（白人、黑人、西班牙人和 
亚洲人)，教育(大学毕业，大学未毕业，高中毕业和非高中学历），家庭类型(有 
子女的已婚夫妇、没有子女的已婚夫妇、有子女的单亲母亲、单身和其他），农村 
居民。以上的说明将在本章中用到。并且我们同时拟合初始单位收人模型和 
对数转换收人模型。分析包括: （ a ) 分别评估初始单位收入和对数单位收人两种 
模型的拟合 优度; （ b ) 比较一般最小二乘法和中位数回归的估 计值; （ c ) 对系数进 
行双尾检验 〆 d ) 用图像展示19组系数估计值及其置信 区间; 并且 ( e ) 对每一年 
获得每一个协变量对条件分位数的位置和形状变化的影响效应，并检验年代的 
发展趋势。 


观察到的收入差别 


图 7. 1描述了种族/民族组和教育组在1991年和2001年的99个实际的分 
位数。其中最有趣的特征是与1991年相比，2001年每组中间的98%成员的收 
人分散更广。 
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1991 
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白人 …… 黑人…•…西班牙裔亚裔 
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—大学教育 

… •- 大学未毕业 

…■…高中毕业 

--- 未接受高中教育 


图 7.1 分种族和教育程度的经验分位数函数 

更详细的比较需要分位数的确切数值。表 7. 1比较了在1991年和2001年 
第 0. 025分位数，中位数和第 0. 975分位数的家庭收人（以2001年固定币值计 
算），并对这些数值赋权，以反映总体情况。观察到的总体和每个组别的共同特 
征是: 相比于1991年，2001年的中间95%家庭的离散程度 ( QSC 。^) 更大，这表 
明在这10年中收入的总体差别和组内差别在增大。 


表7,1家庭收入的组别分布情况 (1991 年和2001年 } 





分位数 




1991 



2001 


0. 025 

0. 500 

0,975 

0.025 

0.500 

0. 975 

总体 

6256 

38324 

131352 

6000 

40212 

164323 

种族/民族 







白人 

6765 

40949 

135443 

6600 

42878 

172784 

黑人 

3773 

23624 

101160 

3788 

27858 

113124 

西班牙人 

5342 

28851 

114138 

5600 

33144 

119454 

亚洲人 

5241 

49354 

149357 

4800 

55286 

211112 

教育 







大学毕业 

11196 

64688 

168912 

10910 

65298 

263796 
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(续表) 





分位数 




1991 



2001 


0. 025 

0. 500 

0. 975 

0. 025 

0. 500 

0. 975 

大学未毕业 

8059 

42082 

120316 

6364 

41901 

134796 

高中毕业 

6392 

35723 

104102 

5347 

33246 

118162 

高中以下 

4918 

20827 

80603 

4408 

20319 

79515 

家庭类型 







已婚有子女 

12896 

55653 

143343 

14193 

61636 

204608 

已婚无子女 

11621 

43473 

146580 

10860 

47665 

176375 

单亲母亲 

3666 

23420 

94114 

3653 

27690 

96650 

单身 

4884 

20906 

83213 

3977 

21369 

91551 

其他类型 

7301 

37896 

115069 

6600 

41580 

150123 

居住地 







城市 

6330 

40732 

137574 

6199 

42504 

174733 

农村 

6122 

32874 

111891 

5419 

33505 

118079 


在过去的10年里，白人和其他种族的差别在收入分布的下半部分缩小 
了。这一缩小可以被看作白人家庭的第 0.025 分位数收入的减少，相比之下， 
黑人和西班牙人的收入相应得到适度的增长。在中位数和第 0. 975分位数收 
入处，亚洲人的收入比白人增长得更快，但底端 2. 5%的亚洲家庭收入落后于 
白人家庭。 

收人不平等的一个重要变化是教育对顶端部分的回报。当大多数大学毕 
业生在过去10年里获得了丰厚的收入时 ，一 半以上的非大学毕业生觉得他们的 
收入实际上在下降。特别的，相对于1991年的高中辍学者，2001年，超过 
97. 5%的高中辍学者的收入显著下降了。 

对家庭类型的考虑——由婚姻状况和子女数量来定义——让我们转向另 
一个社会分层重新塑造收人分布的领域。有子女的已婚夫妇收人在增加，而单 
亲母亲家庭和单身家庭的收入变化不大。城市和农村之间的不平等及它们内 
部的不平等在这10年里得到了强化。 
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描述统计值 

表 7. 2展示了分析中各个协变量的加权平均数和标准差。我们发 现:从 
1991年到2001年间的平均收入几乎增长了 5000美元，这一增长幅度大于之前 
表格中观察到的中位数收入的增长。对数收入的小幅增长提醒我 们:对 数转换 
缩短了分布的右尾。我们发现 :种族 /民族结构有着更大的差异，而总体教育水 
平则出现了大幅提高。然而，有子女的已婚夫妇家庭数量减少了，而其他类型 
家庭和单身家庭的数量相应增加了。正如在过去10年中所见的，美国继续着城 
市化和市郊化的进程。 


表 7. 2变置的描述性统计值 



1991 

2001 

货重 

均值 

标准差 

均值 

标准差 

因变最 





收人 （$) 

46168 

33858 

51460 

46111 

对数收入 

10. 451 

0. 843 

10. 506 

0. 909 

年龄 

49 

17 

49 

17 

年龄平方 

2652 

1798 

2700 

1786 

协变最 





种族/民族 





白人 

0. 795 

0. 404 

0. 755 

0. 430 

黑人 

0. 101 

0. 301 

0. 094 

0. 292 

西班牙人 

0.079 

0. 269 

0. 094 

0. 292 

亚洲人 

0. 025 

0. 157 

0. 033 

0. 177 

教育 





大学毕业 

0, 230 

0. 421 

0.261 

0. 439 

大学未毕业 

0. 210 

0. 407 

0. 296 

0. 457 

高中毕业 

0,341 

0.474 

0. 302 

0. 459 

高中以下 

0. 219 

0.414 

0. 141 

0.348 

家庭类型 





已婚有子女 

0. 330 

0. 470 

0. 287 

0. 452 

已婚无子女 

0- 224 

0.417 

0. 233 

0. 423 
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0. 108 
0. 257 
0. 082 

0. 732 
0. 268 


0. 310 
0. 437 
0. 274 

0. 443 
0. 443 


0. 104 
0.267 
0. 110 

0. 773 
0.227 


0. 305 
0. 442 
0. 313 

0.419 

0.419 


收入调查数据记录 

收人调查数据的两个特征，使得 QRM 方法在分析上优于 LRM 方法，只有 
0. 2%家庭的收入超过100万美元，而超过总体96%的家庭收入低于10万美 
元。因此，特别富有的家庭的数据会严重影响 OLS 的系数估计。第二，收入调 
查对每项收入资料通常进行顶端编码 ( top ^ coded ) ;因此，我们不能直接确定家 
庭总收入在哪个水平上被删截。另外，不同年份的调査可能使用不同的顶端编 
码标准，这导致在清理不同年份的数据以用于比较时十分麻烦。分位数回归模 
型并不需要考虑这些问题，因为 QRM 具有在第3章描述的稳健特性。在这个 
例子中，我们选择两个极端点，第 0. 025和第 0. 975分位数，这样集中于对总体 
中间95%个案进行建模。由于釆用顶端编码的数据点对于拟合的第 
0. 975 QRM 而言，倾向于出现正残差，而替代通过顶端编码得到的那些(未知) 
收人数值对 QRM 估计值的影响效应倾向于最小值。这简化了数据处理，因为 
我们可以分析调查到的所有数据点，不管是否进行顶端编码。 

纵观这个例子，每个协变量向其中位数集中。因此，收人 OLS 回归中的常 
数项表示总体收人的均值，而对数收入 OLS 回归的常数项则表示对数收入的均 
值。对建立在中心化协变量之上的 QRM 拟合模型而言，收入分位数回归的常 
数项表示在典型设定效应下的收人的条件分位数，而对数收人分位数回归的常 
数项则表示在典型设定效应下的对数收人的条件分位数。 


(续表) 


变量 


1991 


2001 


均值 


标准差 


均值 


标准差 


亲型 
I 类地 
亲身他住市村 
单单其居城农 
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拟合优度 

因为 QRM 不再做岀线性回归的假设，所以初始单位收入可以不经过转换 
而直接使用。然而，如果对数转换可以提供更好的拟合模型，我们也愿意进行 
转换。因此，我们对收人方程和对数收人方程的拟合优度进行了比较。通过 
Stata 的 “ qreg ” 命令，我们分别在19个等距分位数处拟合不同的 QRM (总共有 
2 X 19 = 38种拟合情况)。尽管 qreg 命令可以产生渐近的标准误(可能是有偏 
的），但我们只对拟合优度统计值 QRM Rs 感兴趣。表 7. 3分别展示了初始和 
对数单位因变量的 QRM Rs (见第5章的定义)。 

表 7. 3拟合优 度:初 始单位与对数收入的 QRM 

1991 2001 


分位数 

收人 

对数收入 

差异 

收人 

对数收入 

差异 


(1) 

(2) 

(2)-(1) 

(1) 

(2) 

(2)-(1) 

0. 05 

0. 110 

0.218 

0. 109 

0. 093 

0.194 

0. 101 

0. 10 

0. 155 

0. 264 

0. 109 

0. 130 

0. 237 

0. 107 

0. 15 

0. 181 

0. 281 

0. 099 

0. 154 

0. 255 

0. 101 

0. 20 

0.198 

0. 286 

0.088 

0.173 

0.265 

0. 091 

0. 25 

0. 212 

0. 290 

0. 078 

0. 188 

0. 270 

0.083 

0. 30 

0. 224 

0. 290 

0.067 

0. 200 

0.274 

0. 074 

0. 35 

0.233 

0.290 

0. 057 

0. 209 

0. 275 

0.066 

0.40 

0. 242 

0. 289 

0. 048 

0.218 

0.277 

0. 059 

0. 45 

0* 249 

0. 288 

0. 039 

(X 225 

0.276 

0. 051 

0. 50 

0. 256 

0.286 

0. 029 

0. 231 

0.275 

0. 044 

0, 55 

0. 264 

0.282 

0. 019 

0. 236 

0. 273 

0. 037 

0. 60 

0.270 

0.279 

0. 009 

0. 240 

0. 270 

0. 030 

0.65 

0. 275 

0. 275 

-0. 001 

0. 243 

0.266 

0.023 

0. 70 

0. 280 

0. 270 

—0. 010 

0. 246 

0. 262 

0.015 

0. 75 

0, 285 

0. 264 

— 0. 021 

0.249 

0.256 

0. 008 

0. 80 

0.291 

0. 258 

一 0. 032 

0.249 

0,250 

0. 000 

0. 85 

0. 296 

0. 250 

—0. 047 

0. 250 

0. 242 

-0. 008 

0. 90 

0. 298 

0. 237 

—0. 061 

0.252 

0. 233 

—0. 019 

0. 95 

0. 293 

0.213 

— 0. 080 

0. 258 

0. 222 

一 0. 036 




一般而言，相对于初始单位，对数转换会导致对数据更好的模型拟合。从 
1991年的数据来看，在0 < f < 0. 65时，对数收入的 i ? 会更高 :将近 19个分位 
数的2/3获得了更优的拟合。对2001年的数据来说，在0 < f < 0. 85时，对数 
收入的 i ? 更高，表明对2001年数据釆用对数转换比1991年数据具有更强的说 
服力。然而，对数单位下对上尾部分的拟合并不好。如果我们主要关心上尾部 
分的变化和分层，应该使用初始单位收人。出于这个原因，我们将讲述两种单 
位下的分析情况。 

条件均值回归与条件中位数回归 

我们对条件中位数进行建模，是为了展示收人的中心位置与协变量的关 
系。相反，条件均值模型(如 OLS ) 估计的条件均值倾向于捕捉收人分布(右偏） 
的上尾情况。而中位数回归是通过使用 Stata 的 “ qreg ” 命令而获得的。这一命 
令同样被用在初始样本的500个自举样本上，以获得自举标准误(见附录中关于 
计算的 Stata 命令）。 

表 7. 4列岀了 2001年初始单位和对数单位收入的 OLS 估计值和中位数回 
归估计值。我们期待 OLS 下的效应会强于中位数回归下的效应，因为上尾收入 
数据对 OLS 系数存在影响。 

收人方程中的系数是以绝对形式出现的，而对数收入系数则是以相对形式 
表示。除了一些例外，对数收入下的 OLS 系数的绝对值比对数收入下的中位数 
回归系数的绝对值大。例如，在 OLS 结果中，相对于白人，黑人的条件均值收入 
下降了 100(^- 274 — 1) =一 24%；但这一降幅在中位数回归结果中则是 
100(^ 249 7 - 1) =一 22%。换言之，当控制了其他效应后，黑人的均值收人比白 
人的低24%，而黑人的中位数收人比白人的低22%，请注意 :我们 可以在绝对形 
式下确定黑人对条件中位数的效应，因为 QRM 具有单调同变 性质; 但我们无法 
通过条件均值的对数单位估计值得到绝对效应，因为 LRM 并不具备单调同变 
性质。稍后，我们将转向从对数收人方程估计值中获取绝对形式下的效应。 
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表 7. 4 OLS 和中位数回归 {2001 年的初始和对数收入) 


变量 

OLS 

中位数 

系数 

标准误 

系数 

标准误 

收入 





年龄 

2191 

(84.1) 

1491 

(51.4) 

年龄平方 

—22 

(0.8) 

— 15 

(0.5) 

黑人 

— 9800 

(742. 9) 

-7515 

(420. 7) 

西班牙人 

— 9221 

(859. 3) 

-7620 

(551.3) 

亚洲人 

-764 

(1369. 3) 

—3080 

(1347. 9) 

大学未毕业 

-24966 

(643. 7) 

— 18551 

(612. 5) 

高中毕业 

-32281 

(647. 4) 

-24939 

(585. 6) 

高中以下 

-38817 

(830. 0) 

一30335 

(616. 4) 

已婚无子女 

一11227 

(698. 5) 

-11505 

(559. 6) 

单亲母亲 

—28697 

(851. 1) 

-25887 

(580. 2) 

单身 

-37780 

(684.3) 

-32012 

(504.8) 

其他类型 

— 14256 

(837. 3) 

-13588 

(672. 8) 

农村 

-10391 

(560.7) 

一 6693 

(344.1) 

常数 

50431 

(235. 2) 

43627 

(185.5) 

对数收入 





年龄 

0. 0500 

(0. 0016) 

0. 0515 

(0. 0016) 

年龄平方 

一 0. 0005 

(0. 00002) 

— 0_ 0005 

(0. 00001) 

黑人 

一0. 2740 

(0.0140) 

一 0. 2497 

(0, 0145) 

西班牙人 

-0. 1665 

(0, 0162) 

-0. 1840 

(0. 0185) 

亚洲人 

-0. 1371 

(0. 0258) 

一 0. 0841 

(0. 0340) 

大学未毕业 

-0. 3744 

(0.0121) 

—0. 3407 

(0. 0122) 

高中毕业 

一 0. 5593 

(0. 0122) 

-0. 5244 

(0.0123) 

高中以下 

-0. 8283 

(0.0156) 

-0. 8011 

(0. 0177) 

已婚无子女 

-0. 1859 

(0.0132) 

—0. 1452 

(0.0124) 

单亲母亲 

一 0. 6579 

(0,0160) 

一 0. 6214 

(0. 0167) 

单身 

一 0. 9392 

(0.0129) 

-0. 8462 

(0.0136) 

其他类型 

—0. 2631 

(0.0158) 

-0. 2307 

(0.0166) 

农村 

—0. 1980 

(0.0106) 

-0. 1944 

(0. 0100) 

常数 

10. 4807 

(0. 0044) 

10. 5441 

(0. 0045) 




收入和对数收入方程中 QRM 估计值的图像化 


QRM 与 LRM 重要的不同 在于: QRM 估计了多组分位数系数。我们使用 
Stata 的 “ sqreg ” 命令，同时拟合 QRM 的19个等距分位数（第 0. 05, … ，第 
0,95)。 “ sqreg ” 命令采用自举方法估计这些系数的标准误。我们确定了 500 个 
复制样本以保证自举样本足够大，以得到稳定的标准误和95%置信区间估计 
值。 “ sqreg ” 命令没有从每一次自举中保存估计值，而仅仅展示了结果的摘要。 
我们对初始单位收入和对数转换收入都进行自举抽样。从 “ sqreg ” 得到的结果 
用于系数的图像展示。 

使用如此多的估计值，导致了在复杂性和简约性之间的权衡考虑。一方 
面，众多的参数估计值可以捕捉到分布形状复杂而细微的变化，而这正是使用 
QRM 的一大优势。另一方面，这种复杂并不是没有代价的，因为我们可能面对 
解释系数估计值集合的复杂问题。因此，之前备选的 QRM 估计值的图像视角， 
便成为一个解释 QRM 结果的重要步骤。 

我们特别感兴趣的 是:协 变量效应在不同分位数上是如何变化的。我们根 
据被估计的 QRM 系数随着/^的变化情况而绘制的图像，对于突出这些系数的 
趋势是十分有价值的。对于初始单位系数，水平线表明系数并不随着 p 变化， 
因此，协变量的特定变化对因变量分位数的影响效应对所有分位数而言是相同 
的。换言之，当所有其他协变量保持不变时，这个协变量的变化只引起位置的 
变化: 如果这条直线在水平零直线之上，那么存在正向的 变化; 如果在水平零直 
线之下，那么变化是负向的。另一方面，一条非水平直线代表位置和尺度都发 
生了变化。在这种情况下，位置的变化由中位数处的分位数系数 决定: 正的中 
位数系数表明向右的位置变化，负的中位数系数则表明向左的位置变化。一条 
向上倾斜的直线表明正向的尺度变化(尺度越来越宽)。相反，向下倾斜的直线 
表明负向的尺度变化(尺度越来越窄）。曲线中任何非直线的形状意味着存在 
更复杂的形状变化，例如，以偏态变化的形式。然而，这些图像既不提供确切的 
形状变化的分位数，也不提供它们的统计显著性。稍后，我们将通过形状变化 
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3 000 



分位数检验它们的显著性。 

为了说明如何通过图像化识别位置和形状的变化情况，我们在图 7. 2中仔 
细检验了年龄对初始单位收入的影响效应。因为系数和置信封闭间都大于0 
(那条水平线），年龄对初始单位收人的各种分位数的效应全都是正向和显著 
的。这些年龄系数形成一条向上{頭斜的、近似笔直的线，这 表明: 年龄的增长使 
得收人分布的位置向右移动，而且扩大了收人分布的尺度。 


0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 0. 9 1 

P 

图 7.2 年龄效应 :原始 尺度的 QRM 系数和 BOOSTRAP 置信区间(2001> 

图 7. 3的小图展示了初始单位收入的结果。基于自举标准误计算得到的系 
数点估计和95%置信区间在户6 (0, 1) 范围内被绘制成图像。图中的阴影部 
分 表明: 如果它没有穿过零值，那么这个协变量的效应在特定分位数上是显著 
的。例如，亚洲人效应在 p >0. 45往后处是不显著的，因为置信封闭间在这点 
之后穿过了 0点。第4章总结了一些基本模式，它提供了关于初始和对数单位 
系数的位置变化和尺度变化的一些提示。下面将讨论我们的例子中出现的 
模式。 

常数值的图像是关于特定家庭收入的被预测的分位数函数(例如，基于所 
有协变量的均值而虚构的家庭收入），它将充当参照函数。这一分位数函数表 
明: 对于特定的家庭而言，其收入是一个右偏分布。与没有考虑协变量的影响 
而从收入数据观察到的偏态程度相比，这一偏态更不明显。在这13个协变量 
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中，只有“年龄”具有正效应。总体中间的70%个案的估计收人随着年龄的增长 
而成比例地增加。年龄效应在低尾部分的比率过低，而上尾部分的比率却过 
高。然而，这种不对称性并不足以得岀关于偏态的结论，因为必须考虑基准的 
偏态程度（由常数项表示）。所有其他协变量的效应都是负的。正如之前提到 
的，亚洲人效应在条件分布的低尾部分是显著的。这部分的曲线比较平直，表 
示分布的下半部分仅存在位置变化。另外一些协变量也存在接近平直的曲线; 
例如，西班牙裔的收入低于白人，几乎在所有的分位数上都是相似的，这使得曲线 
是平直的。然而，大多数协变量不仅产生位置变化，而且导致显著的形状变化。 

图 7. 4是关于对数系数的图像。我们发 现:对 数转换的近似正态性缩短了 
右偏分布。因此，常数系数的图像类似于正态分布的分位数函数。正如第4章 
讨论的，对数系数以相对形式模拟成比例的 变化; 水平直线表示在不改变偏态 
的情况下的位置变化和尺度变化。解释任何背离水平直线的情况都是比较困 
难的，因为它可能暗示着位置、尺度和偏态变化的混合情形。另外，因为在对数 
单位情况下，高端分位数水平直线之上或之下的对数收人的微量变化会造成初始 
收入的巨大变化，所以在声称曲线为“接近平直” ( cbsetc ^ flat ) 时，我们应该谨慎。 
例如，三个最低教育水平组的曲线相当平直，但我们不会称它们为“接近平直”，因 
为它们在第 0. 8分位数之上的上尾部分是明显下降的。简言之，与初始单位系数 
的图像相比，对数系数的图像是较无效的，而且在解释时要更加谨慎。 

非中心位置的分位数 回归： 绝对效应 


图像视角提供了关于协变量影响条件收入分布形状的总的看法。我们现 
在仔细观察非中心位置的情况，以补充图像视角的不足。我们选择超岀图像之 
外的两个刚刚检验过的极端 值:第 0. 025和第 0. 975分位数。为了获得初始单 
位收入在第 0. 025和第 0. 975分位数回归方程的系数标准误，我们可以用500 
个复制样本的 “ sqreg ” 命令，或者手工执行500个复制样本的自举法，以保存计 
算系数估计值的所有500组情况。条件形状变化分位数的计算是以涉及这两个 
分位数估计值(第 0. 025和第 0. 975) 的每一个自举样本为基础的，所以我们在 
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这里展示的是手工得到的自举结果。在 500 组系数估计值中，我们使用中位数 
作为点估计值和 95% 置信区间。如果这一置信区间没有穿过 0 值，那么这一系 
数在 p = 0. 05 处是显著的。这些结果几乎等同于 sqreg 的结果。 

对数收人方程的估计值不是以绝对形式出现的。因为绝对效应对于理解 
协变量对分布形状的影响作用至关重要，所以我们需要找到绝对效应,这可在 
典型设定(所有协变量的均值)下计算得到。至于获得初始收入，我们保存了从 
自举样本中得到的 500 组对数单位系数。对于以自举样本为基础的估计方法中 
的每一个协变量，我们进行如下 处理： 

(1) 通过与常数项相加，获得协变量均值的单位增量下的对数条件分 
位数。 

(2) 分别对对数条件分位数和常数项取指数，获得两个初始单位下的 
条件分位数。 

(3) 求这两个初始单位条件分位数的差，它代表了从典型设定 ( TSE ) 
中求得的协变量的绝对效应。 

表 7. 5 展示了收入和对数收入在第 0. 025 和第 0. 975 分位数处的绝对效 
应。表 7. 5 的上半部分数值来自收入方程。常数项分别表示当所有协变量取均 
值时第 0. 025 和第 0_ 975 分位的估计 值: 最低值大约为 1 万美元，最高值大约为 
13. 7 万美元。 

最突出的模式是协变量数值两端的效应存在巨大的差距。例如，黑人的收 
入在第 0 . 025 分位数处下降了 1991 美元，而在第 0 . 975 分位数处则减少了 
17 3 80 美元。另外，西班牙人和亚洲人在第 0. 025 分位数处相比于白人有显著 
的较低收入，而在第 0, 975 分位数下则不存在差别。 

表 7. 5 的下半部分展示了基于对数收人方程的典型设定效应 ( TSE )。 常数 
项表示在典型设定下的第 0. 025 和第 (X 975 条件分位数。 TSE 系数近似于从 
收入方程估计得到的系数。但它们并不完全相等，因为对数收入模型的拟合优 
于收入模型，还因为对数收入方程的估计值是在典型设定下求得的。 
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表 7. 5尾端分位数的绝对效应 (2001 年的初始和对数收入 } 


变 量 

第 a 025分位数 

第 0. 975分位数 

系 数 

系 数 

收入模型 



年龄 

248“ 

3103“ 

年龄平方 

—2” 

一 29〃 

黑人 

-1991^ 

-17380" 

西班牙人 

—2495^ 

-7418 

亚洲人 

一 4221" 

16235 

大学未毕业 

-2607** 

一 105858“ 

高中毕业 

-4332^ 

-119924** 

高中以下 

-6211** 

-129464** 

已婚无子女 

—4761** 

— 18878" 

单亲母亲 

一 10193" 

-50465 

单身 

— 12257“ 

-78570" 

其他类型 

—7734** 

一 16876“ 

农村 

-943** 

-18654" 

常数 

10156” 

137561" 

对数收入模型 



年龄 

396** 

5409** 

年龄平方 

-3** 

—53" 

黑人 

-2341** 

一 28867“ 

西班牙人 

-1835** 

-8032 

亚洲人 

-3259** 

8636 

大学未毕业 

-1916" 

—49898** 

高中毕业 

-2932** 

一 57557“ 

高中以下 

-4095** 

-70006“ 

已婚无子女 

-3149** 

一 12471” 

单亲母亲 

-5875 

一 33219” 

单身 

-6409** 

-63176** 

其他类型 

—4382** 

-5282** 

农村 

— 938” 

-26742“ 

常数 

8457** 

115804” 
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评估影响位置和形状变化的协变量效应 


QRM 估计值可以被用作精确计算协变量是如何改变条件分布的位置和形 
状的。为了完成这项估计，我们比较两个组 :参照 组和比较组。在连续型协变 
量的情况下，当保持其他协变量固定不变时，通过赋予协变量某些数值来定义 
参照组，而通过增加协变量的一个单位来定义比较组。对于二元协变量而言， 
在其他协变量保持不变时，我们将其数值从0换成1。为了反映初始单位的分 
布，所有的比较都在绝对形式下进行。因此，如果使用对数收入回归方程来拟 
合数据，首先要获得绝对形式下的协变量系数(如之前部分所提到的）。位置的 
变化可通过中位数的系数得到。而形状(尺度和偏态）的变化则是在多个系数 
组合的基础上获得的。它们的显著水平可通过自举方法确定。 

表 7. 6展示了 1991年和2001年收人模型的结果，位置变化结果在顶部，尺 
度变化结果在中间，而偏态变化结果在底部。在1991年，除亚洲人之外的所有 
协变量都显著地改变了比较组相对于参照组的位置。其中一些效应从1991年 
到2001年发生了明显的变化。亚洲人的位置变化在1991年是不显著的，而 
在2001年则显著为负，意味着白人在收入上相对于少数族裔享受着绝对优 
势。然而，其他种族/民族组的位置变化是不明显的。年龄的位置变化在 
2001年比1991年变得更不重要了。这种情况同样存在于低教育水平上。然 
而，已婚有子女家庭除外的家庭类型的负向位置变化效应更强，正如农村变 
量的效应一样。 

位置变化代表组间差别。正如之前对表 7. 4讨论的，中位数回归系数比 
OLS 系数 更弱。 对于高度右偏的收入分布，中位数回归系数代表中心位置的变 
化，而 OLS 系数则更多地受到右尾的影响。通过位置变化（中位数回归），我们 
关于教育组别的发现意味着教育在位置变化方面的效应并不如文献中指出的 
那样强。对位置变化的影响，或者组间差别，只是10年间不平等如何变化这个 
故事中的一部分;另一部分则是形状变化，或者相对的组内差别。 QRM 的优势 
在于，它们区分了组间和组内的差别，增加了我们对不平等变化的理解。 
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表 7 .6条件分位数的位置和形状变 化:来 自初始单位的 QRM 


变 化 

1991 

2001 

位置变化 



年龄 

1801** 

1501** 

年龄平方 

-169" 

— 149“ 

黑人 

— 7878** 

—7473** 

西班牙人 

-8692** 

-7616** 

亚洲人 

-1231 

-2850 ## 

大学未毕业 

-19173** 

-18588" 

高中毕业 

—25452" 

-24926 ** 

高中以下 

— 32595“ 

-30345"* 

已婚无子女 

-9562** 

-11501“ 

单亲母亲 

-22366“ 

-25862** 

单身 

— 27866” 

-32039” 

其他类型 

-11716“ 

-13659" 

农村 

—5284" 

-6698* # 

尺度变化 



(总体中间的 95%) 



年龄 

3393“ 

2852** 

年龄平方 

—305“ 

— 272" 

黑人 

-14617“ 

-15378** 

西班牙人 

-3027 

-4893 

亚洲人 

11425 

20842 

大学未毕业 

—34212" 

-103245^ 

高中毕业 

-49002 

-115600** 

高中以下 

-63477" 

-123369** 

已婚无子女 

3708 

-14001“ 

单亲母亲 

一 9177 

-40290** 

单身 

一 32482" 

-66374” 

其他类型 

-8220 

-8819** 

农村 

-9817** 

— 17693“ 

偏态变化 



(总体中间的 95%) 



年龄 

-0. 0200" 

—0. 0195** 

年龄平方 

0. 0003** 

0, 0002** 

黑人 

0. 0242 

0. 0713 

西班牙人 

0. 2374** 

0, 1833** 



分位数回归锲型 


(续表) 


变 化 

1991 

2001 

亚洲人 

0. 0395 

0. 1571 

大学未毕业 

0. 3524*" 

-0. 8572 

高中毕业 

0. 5245"" 

-1. 0263 

高中以下 

0. 7447** 

—1. 1890 

已婚无子女 

0. 4344** 

0. 1514 

单亲母亲 

0. 8493"* 

0. 3781** 

单身 

0. 522『 

0. 2184 

其他类型 

0. 1748 

0. 1714 

农村 

0. 0446 

0. 0541 


尺度变化是形状变化的一种类型。在3个少数族裔组中，只有黑人的条件 
收入分布范围比白人的短。黑人中95%的收入范围比白人的更窄，意味着黑人 
群体比白人群体有着更高的同质性，而且种族在决定收入时具有显著性。这一 
尺度变化在2001年变得更大。同样的情况存在于3个低教育组别中。教育的 
尺度变化提供了关于在收入决定因素中教育重要性不断增加的一致的和精确 
的 发现: 形状变化而不是位置变化，表明教育的重要性在不断增加。 

偏态变化是形状变化的另一种类型。条件分位数偏态程度的增加预示着 
不平衡的组内差别，有利于分布顶部的成员。1991年的结果表明 :许多 处于不 
利地位的组别都经历了这种不平衡的组内差别，包括西班牙人、3个低教育水平 
组和处于劣势的家庭类型(单亲母亲、单身和其他类型家庭）。其中一些组内差 
异在2001年消失了，特别是在教育方面。这一发现进一步反映了社会奖励大学 
毕业生和限制低教育群体中非常能干者向上流动的机制。 

表 7. 7展示了从对数收入模型中求得的初始单位结果。这些结果反映了生 
命周期中的相同趋势，种族/民族组别、教育组别、家庭类型和农村居住类型。 
不管拟合的是收入还是对数收人，在每一年和年代的趋势中，位置变化和尺度 
变化是相似的。偏态变化则存在一些差异。特别的，2001年，低教育组的偏态 
程度显著减 小了; 但这一发现在对数收入模型上是显著的，而在收入模型上则 
是不显著的。当检验两种模型(收入和对数收入)的拟合情况时，出现这种矛盾 
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并不奇怪。它们体现了两种根本上不同的模型，其中一种(对数收人)模型的拟 
合情况更优。另一方面，如果定性的结果是不一样的，这可能说明这些结果是 
不稳健的。我们需要通过观察协变量影响不平等程度的作用的综合评价，来决 
定以上情况是否属实。 


表 7. 7条件分位数的位置和形状变化(来自对数单位的 QRM ) 


变 化 

1991 

2001 

位置变化 



年龄 

2456" 

1994** 

年龄平方 

—24** 

—20** 

黑人 

—9759" 

一8386^ 

西班牙人 

-7645 ## 

—6300" 

亚洲人 

一 1419 

— 3146" 

大学未毕业 

一 10635" 

— 11012" 

高中毕业 

-14476” 

— 15485“ 

髙中以下 

-20891** 

一20892 ## 

已婚无子女 

-3879** 

一 5103** 

单亲母亲 

15815“ 

一 17506“ 

单身 

-19599 #w 

-21658“ 

其他类型 

—6509** 

— 7734** 

农村 

一 4931" 

— 6725** 

尺度变化 



(总体中间的95%> 



年龄 

4595" 

5008** 

年龄平方 

— 41** 

—50** 

黑人 

-17244" 

一 26509" 

西班牙人 

-2503 

-6017 

亚洲人 

4290 

12705 

大学未毕业 

-22809“ 

一 47992“ 

髙中毕业 

—32675" 

-54434" 

高中以下 

-44457** 

—65956〃 

已婚无子女 

77 

-9264** 

单亲母亲 

一10269 

—27272“ 

单身 

—32576“ 

-56791" 

其他类型 

一 7535 

-906 

农村 

一 12218“ 

—25760“ 



分位数回归槙型 


(续表) 


变 化 

1991 

2001 

偏态变化 



(总体中间的95%) 



年龄 

—0. 0417** 

— 0. 0100 

年龄平方 

0. 0005** 

0. 0002 

黑人 

0. 1127 

一 0. 0682 

西班牙人 

0.2745^ 

0. 1565** 

亚洲人 

-0. 0383 

0. 1469 

大学未毕业 

0. 0655 

—CL 2775** 

高中毕业 

0. 0934 

—0. 2027** 

高中以下 

0. 2742** 

-0. 1456** 

已婚无子女 

0. 0890 

-0. 0272 

单亲母亲 

0. 5404 b 

0. 3193” 

单身 

0. 2805** 

— 0_ 0331 

其他类型 

0. 0164 

0. 1640 

农村 

0. 0012 

一 0. 0740 


我们发展出对协变量影响不平等程度的作用的综合评价方法，它用于检验 
位置和形状变化符号的组合情况。 

我们只考虑显著的变化情况。对于协变量而言，在这三种变化中同步的符 
号表明协变量加剧了不 平等; 显著的符号的个数越多，加剧效应就越强。非同 
步符号则表明协变量可能在增加组别不平等的同时降低了组内不平等，反之亦 
然。表 7. 8中关于收入模型的左边部分表 明:在 1991年，任何一个协变量对不 
平等都不具有同步效应，但在2001年，许多协变量都具有这一效应。这些同步 
协变量包括教育组别、家庭类型(单亲母亲除外)和农村居住类型。右边两列展 
示了对数收入模型的相应结果。我们 发现: 在综合评价上不存在明显的差别。 
例如，教育组别在两种模型中的效应模式在1991年是非同步的，而到2001年则 
转变为同步的。因此，2001年的美国社会是更加不平等的，而且它的社会分层 
比10年前更多地受教育、婚姻、有否子女和农村居住的影响。 

在这个例子中，我们使用总体中95%的个案计算形状变化的分位数。研究 
者可以根据他们的研究问题定义自己关心的形状变化。它可以将相应的形状 
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变化定为总体中间的99%、98%、90%、80%或者50%部分。我们将这个任务 
留给读者自己完成。 


表 7. 8协变量对不平等程度影响效应的综合评价(系数的同步性模式) 


变 量 - 

收人方程 

对数收入方程 

1991 

2001 

1991 

2001 

年龄 

+ + — 

+ + — 

+—— 

+ + 0 

年龄平方 

——+ 

- h 

—一 + 

-0 

黑人 

-0 

-0 

-0 

-0 

西班牙人 

一 0十 

一 0 + 

— 0 + 

- 0 + 

亚洲人 

0 0 0 

一 0 0 

0 0 0 

一00 

大学未毕业 

——+ 

-0 

——0 

— 

高中毕业 

- h 

-0 

-0 

—— — 

高中以下 

—— + 

-0 

- h 

— 

已婚无子女 

一 0 + 

-0 

- 0 0 

-0 

单亲母亲 

— 0 + 

——+ 

- 0 + 

- h 

单身 

——+ 

——0 

——+ 

——0 

其他类型 

— 0 0 

-0 

— 0 0 

- 0 + 

农村 

— 一 0 

-0 

-0 

-0 


小结 


最近10年收入不平等维系和扩大的根源是什么？为处理这一研究问题，我 
们使用了本书发展出的技术。首先，我们用第2章介绍的分位数概念进行描述 
性分析。对收人数据，我们讨论了右偏分布和顶端编码的问题，并解释 QRM 为 
什么可以和怎样共同解决这些问题。我们的分析按照第3章讨论的6个步骤进 
行:定 义和拟合模型，评估拟合优度，计算参数的推论统计，图像化系数和它们 
的置信区间，计算位置和形状变化以及它们的推论统计值。我们分别描述了收 
入和对数收入模型，特别关注重建初始单位系数。在描述这些步骤的同时，我 
们通过对结果的解释，展示了用 QRM 技术处理研究问题时所具有的实用性。 
我们希望关于应用步骤的系统总结为实证研究提供清晰的指导。 



附录 I STATA 命令 


数据： dO . dta 是一个用于分析的 Stata 文件 
I . 分析初始单位收入的 Stata 命令 
第1 步:拟 合优度 

* qO . do 

* a full model 

* raw^scale Income in $1000 
关 OLS 

* 19 quantiles 

tempfile t 

use dO 

global X age age 2 blk hsp asn scl hsg nhs mh fh sg ot rural 

* centering covariates 
sum $X 

tokenize $X 

while ,, r l ， n 〜 = NM | 
egen m = mean ('l ') 
replace ' lm = 'l ' — m 
drop m 



418 


裹軀 ae 分析 


macro shift 

} 

sum $X 

forvalues k = 1/2 j 
reg cine $X if year = f k 1 

1 

forvalues i = 1/19 \ 
local j = 'iS/20 

qreg cine $X if year = 1, q( 1 j 1 ) nolog 

} 

forvalues i = 1/19 j 
local j = V20 

qreg cine $X if year = 2 ， q(' j 1 ) nolog 
} 

第 2 步 :500 次 重复抽样的同时分位数回归 (Simultaneous Quantile Regressions) 

sO. do 
full model 

* sreq 19 quaniles 

* raw^scale income in $1000 
analysis for 2001 

tempfile t 
set matsize 400 

global X age age2 blk hsp asn scl hsg nhs rah fh sg ot rural 
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use cine $X year if year = 2 using do, clear 
drop year 

* centering covariates 
sum $X 

tokenize $X 

while ,M 1 "I 一 nM j 
egen m = mean ('l 1 ) 
replace 'l ' = 'l r — m 
drop m 
macro shift 

sura $X 

sqreg cine $X, reps(500) g( • 05 • 10 .15 • 20,25 • 30 , 35 . 40 . 45 • 50 . 55 . 60 

.65 ,70 .75 .80 .85 .90 .95) 

mstore b, from(e(b)) 

mstore v, from(e(V)) 

keep age 

keep if — n<U 

save SO, replace 

第 3 步 : 基于 s0. do 的结果创建图表 

关 s—mO . do 
关 matrix operation 

* 13 covariates + cons 

* graphs for beta ’s (19 QR) 

* 500 bootstrap se 
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* analysis for 2001 


* for black-white graphs 


set scheme s2mono 


set matsize 400 


* 13 covariate + cons 
local k = 14 

* k parameters for each of the 19 quantiles 
local kl = 'k ' * 19 

use sO, clear 

qui mstore b 
qui mstore v 


* 95 % ci 

* dimension 'k x 1 

mat w = vecdiag( v) 
mat w = w 1 
svmat w 
mat drop w 

qui replace wl = sqrt(wl) 
rnkmat wl if _n<C = 'kl ', mat(v) 
drop wl 
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mat b = b 

mat l = b-1.96*v 
mat u=b+1.96*v 


* 19 quantiles 
mat 

q= (0. 05\0.10\0. 15\0. 20\0. 25\0. 30\0. 35\0. 40\0. 45\0. 50\0. 55\0. 60\0. 65 
\0_ 70\0. 75\0_ 80\0. 85\0. 90\0.95) 

* reorganize matrix by variable 

forvalues j = l/’k ’| 
forvalues i = 1/19 | 
local 1 = ! k ， * ('i 丨 -1) + ， j ， 

mat x ’j ’q 4 1 = q['i ’ ， 1], b[’l f ’ 1] ， l['l 1], u['l 1] 3 vfl 、 1] 


forvalues j = l/'k T ) 
mat x f j f = x 1 j 'ql 
forvalues i = 2/19 { 
mat x ’j ， = x ’ j \x f j q f i } 

\ 

* q b 1 u v 

mat list x 1 j 1 , format( % 8. 3f) 
svmat x f j ' 


mat al = x ' j，[1 ... ， 2] 
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mat a2 = x ’jl[l … ， 5] 
mat xx f j 1 = q, al, a2 

* q b v 

mat list xx ' j ', format( % 8, 3f) 
mat drop al a2 xx f j 1 
1 

* graphs using the same scale for categorical covariates 

* use age, age-squared and constant as examples 

* age 

twoway rarea xl3 xl4 xll, color (gsl4) | | line xl2 xll, lpattem ( solid) 
yline(0, 

lpattem( solid) lwidth (medthick)) ylabel ( 0 ”0" 1 ” 1000" 2 ”2000” 3 
"3000") 

ytitle(quantile coefficients for income ( $) ) xtitle(p) xlabel(0(. 1) 1) 
legend (off ) 

graph export gO. ps, as (ps) logo (off) replace 

* age2 

twoway rarea x23 x24 x21, color (gsl4) || line x22 x21, lpattern ( solid) 
yline(0. 

lstyle(foreground) lpattern(solid) lwidth(medthick)) xtitle(p) xlabel(0 
(- 1 ) 1 ) 
legend(off) 

graph export g2, ps, as(ps) logo (off) replace 


* constant (the typical setting) 
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twoway rarea xl43 xl44 xl41, color (gsl4) | | line xl42 xl41, lpattem 
(solid) 

yline(0, lstyle(foreground) lpattem(solid) lwidth(medthick)) ylabel (0 

( 20 ) 120 ) 

xlabel(0(. 1)1) xtitle(p) legend(off) 
graph export gl4.ps ， as(ps) logo (off) replace 

drop x* 

matrix drop —all 

第 4 步： 计算位置和形状变化 

* e0. do 

* full model 

* raw-scale income in $1000 

* bootstrap 

* analysis for 2001 

tempfile t 

global X age age2 blk hsp asn scl hsg nhs mh f h sg ot rural 

use cine SX year if year = 2 using do, clear 
drop year 

* centering covariates 
sum $X 

tokenize $X 

i MU Uf ( 1 H f 

while 1 〜= I 
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egen m = mean ( ? 1 1 ) 
replace 'l 1 = 'l 1 — m 
drop m 
macro shift 


sum $X 
save f t 1 

forvalues i= 1/500 { 
use，t 丨 ， clear 
bsample 

qreg cine SX, q(. 025) nolog 
ms tore e, from(e(b)) 
keep if 一 n〈ll 
keep age 

save eO *i ', replace 


[ 修改 eO. do 中的命令从而生成分析第 0. 5 分位数的 el. do 和分析第 0, 975 分 
位数的 e 2 _do] 


* bsO.do 

* location and shape shift quantities 

* bootstrap confidence interval 

* 3 quantiles (. 025, .5，. 975) 


set matsize 800 
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* k= 井 of covariates + cons 
local k = 14 

local kl = 'k 1 

* initial 
forvalues j = 0/2 { 
use e 1 j '1, clear 
qui mstore e 

mat ren e e 1 j 1 

1 

forvalues j = 0/2 ) 
forvalues i = 2/500 j 
use e 1 j n i ’， clear 
qui mstore e 
mat e 1 j 1 = e 1 j '\e 
mat drop e 

I 

forvalues j = 0/2 { 
qui svmat e 1 j 1 

1 

* mean of estimate (point estimate) 
关 percentile-method (95% ci) 
forvhlues j = 0/2 j 

forvalues i = l/'k ' { 
pctile x - e ! j M i ', nq(40) 
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sort x 

qui gen xO = x if _n = 20 
qui gen xl = x if _ji = 1 
qui gen x2 = x if _n = 39 
egen em ' j M i ' - max(xO) 
egen el 'j "i 1 = raax(xl) 
egen eu r j M i r = raax(x2) 
drop x xo xl x2 
sum em j i el j i eu j i 


* SCS scale shift 
forvalues i = l/'kl f j 
gen scls 'i 1 = e2 T i r - e0 'i ' 
pctile x = scls 'i f , nq(40) 
sort x 

qui gen xO - x if _n = 20 
qui gen xl = x if _n = 1 
qui gen x2 = x if — n = 39 
egen seism ! i ' =max(x0) 
egen sclsl 'i 1 = max(xl) 
egen selsu f i 1 = max(x2) 
drop x xO xl x2 

sum seism 'sclsl 'i f selsu f i 


* SKS skewedness shift 
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* SKSe2(.975) - el(.5) and el(.5) - e0(.025) 

* i for covariate, k for constant 
forvalues i = l/'kl '{ 

gen nu = (e2 f i ' + e2 'k 1 - el. i 1 - el f k 1 ) /(e2 'k ' - el T k ') 
gen de = (el 'i 1 + el f k 1 - eO 1 i 1 - eO 'k ') /(el f k 1 - eO 'k ') 
gen skis ’i 1 二 nu/de 
drop nu de 

petile x= skis 'i 1 , nq(40) 
sort x 

qui gen xO = x if _n = 20 
qui gen xl = x if _n = 工 
qui gen x2* x if _n = 39 
egen sklsm 'i 1 = max(xO) 
egen sklsl 'i ' = max(xl) 
egen skleu 'i ' = max(x2) 
drop x xo xl x2 

sum sklsm 'i 'sklsl 'i 'sklsu ' 


I . 分析对数单位收入的 Stata 命令 

[将初始单位收入替换为对数单位收入，重复第1、2、3步] 


第4 步： 基于对数收入 QRM 计算初始位置和形状变化 

[将 eO . do , el _ do 和 e 2 . do 文件中的初始单位收入替换为对数单位收入] 


set matsize 800 

兴 k = # of covariates + cons 
local k = 14 
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local kl = 'k ' - 1 

* parameter matrix (eO el e2) 

* initial 
forvalues j = 0/2 j 
use e 1 j f l, clear 
qui mstore e 

mat ren e e 1 j ' 

} 

* 500 reps 
forvalues j = 0/2 { 
forvalues i = 2/500 j 
use e ] l , clear 
qui mstore e 

mat e 3 = e ] \e 
mat drop e 


get log conditional quantile 
forvalues j = 0/2 | 

* dimensions 500 x 14 

* c 1 j f l to c ’ j f 13 are covariates 
兴 c 1 j '14 constant 


forvalues m = l/'k 1 j 



分位数回归棋型 I 


mat c , j M ra , =e , j T [l.. t , T m 'l 
I 

forvalues m = l/’kl ’{ 

mat c f j M m' + c T j M k T 

1 

mat c ] = c j 1 
mat drop c f j r l 
forvalues in = 2/'k 1 ( 

. i , I i . \ i.ii i 

mat c]=c],c] m 
mat drop c 1 j ''m 1 
) 

关 transform log-scale conditional quantile to raw-scale conditional quan¬ 
tile 

t ‘ 

* matrix to var 
svmat c 1 j 1 

mat drop c f j ' 

forvalues m = l/'k f ) 

qui replace c 1 j M m 1 = exp(c 'j 1 ra f ) 

l 

forvalues ra = l/'kl 1 { 
ra i replace c ' j 丨 , m f = c f j M m 1 - c f j 1 f k 1 
1 

* var to matrix 


forvalues ra = l/ f k ' j 
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mkmat c 1 j M m f , mat(e ' j 


m 


) 


, i.i r . 

mat e j = e ] 1 
mat drop e 1 j 'l 
forvalues m = 2/'k 1 j 
mat e] =e],e] m 
mat drop e 'j "m ' 

1 

instore e ? j f , from(e 1 j ') replace 


mat dir 
keep age 
keep if _n<Cll 
save 1-r, replace 


* * * 

* bsl. do 

* bootstrap method 

* location and shape shift quantities 

* based on log-to-raw coeff t 


set matsize 800 


* k = 林 of covariates + cons 
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local k = 14 
local kl = f - 1 

use 1 - r 

forvalues j = 0/2 { 
qui mstore e r j 1 
qui svmat e 1 j 1 

1 

* mean of estimate (point estimate) 

* sd of estimates (se) 

* percentile-method (95 % ci) 
forvalues j = 0/2 ) 
forvalues i = l/ f k f { 

pctile x = e ' j ,r i 1 , nq(40) 
sort x 

qui gen xO = x if - n =20 
qui gen xl = x if - n= 1 
qui gen x 2 = x if — n = 39 
egen em 1 j M i ' = max(xO) 
egen el 1 j "i 1 =max(xl) 
egen eu ， j M i f = max(x 2 ) 
drop x xo xl x 2 

f ' M ' f l f * I I * I 早 ■ M ■ T 

sum em] 1 el ] 1 eu j 1 
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* scs scale shift 

forvalues i 

= l/'kl 'j 

gen scls f i ' 

=e2 ' i 1 - eO ' i 

pctile x= scls 'i T , nq(40) 

sort x 


qui gen xO = 

x if -n =20 

qui gen xl = 

x if — n = 1 

qui gen x2 = 

x if - n = 39 

egen seism ' 

i 1 = max(xO) 

egen sclsl r 

i ' = max(xl) 

egen selsu V 

i 1 = max(x2) 

drop x xo xl x2 

sum seism 'i 

f sclsl 'i 'selsu 


* SKS skewedness shift 

* SKSe2(.975) - el(.5) andel(.S) - e0(.025) 

* i for covsriate, k for constant 
forvalues i = l/ ? kl 1 j 

pennu= (e2 'i 1 +e2 r k 1 - el 'i 1 - el 'k ')/(e2 ! k ' - el T k f ) 

gen de = (el 'i 1 + el 'k T - eO T i 1 - eO 'k ') /(el 'k ' - eO 'kO) 

gen skis 'i 1 = nu/de 
drop nu de 

pctile x= skis T i 1 ， nq(40) 
sort x 

qui gen xO = x if - n = 20 
qui gen xl = x if 一 :n = l 
qui gen x2 = x if - n = 39 
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egen sklsm i 
egen sklsl 'i 
egen sklsu ,i 


=max(xO) 
=max(xl) 
=raax(x2) 


drop x xo xl x2 

sum sklsm 'i 'sklsl 'i 'sklsu 
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注释 


[1] 为了准确起见，我们假设样本大小是奇数。如果样本大小是偶数的，那么样本中位数则被定义为 
第 (n /2) 位和第 (-^ + l ) 位顺序统计值的平均值，在修改位于第（《/2)位或第 

^ + 1) 位顺序统计值之上(或之下）的一个数据值同时保持它的相对位置不变时，这一表述 
依然正确。 

[2] 这里用到的数据来自收入与项目参与调查 (SIPP) 的2001年面板数据。家庭收人是指2001年的 
年收人。第3章至第5章中用到的分析样本包括19390户白人家庭和3243户黑人家庭。 

[3] Q^(^ | = Q C9) + +e\ p ^ = ^ p) +x# =Q^( yi | a) + c M , Q 

[4] 然而，不同分位数解决方法的数量受限于有限样本的大小。 

[5] 准确地说，百分比的变化是 100(^ 115 -1) = 12. 2%。 

[6] 条件均值是与线性预测变量的指数形式成比例的 (Manning， 1998)。例如，如果误差服从正态分 

布 N(0, ^),那么 E( yi | X,) = 有时被称为拖尾因子 ( smear i ng f act0r )。 

[7] 注意稳健性不适用于协变量的离群值。 

[ 8 ] 在 QRM 中，我们假设， 5 的第 p 分位数等于0。 

[ 9 ] 参照/比较选对术语可见 Handcock and Morris (1999)。 

[10] 我们可以谈论增加一年教育的效应，而这对于所有种族和所有教育水平而言是一样的。相似的， 
从黑人变为白人也存在一种影响效应，对于所有教育水平来说也是相同的。这里存在黑人变为 
白人的效应，与白人变为黑人的效应相反。对没有交互项的 LRM 的位置效应的分析是十分简 
单的。当模型引入交互项时，这一分析便变得相当复杂。 

[11] 需要注意的是，我们可以指定任何分位数，例如第 0. 39分位数，而不局限在等距分位数上。 

[12] 如果估计系数是$，那么预测变量的单位增量会使因变量增加 [100(d 对于估计系数 

g 的小数值而言，这大概等于100$%。 

[13] 这些实践包括从 logit, probit 和 tobit 模型估计对概率的影响效应。 
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conditional mean 
conditional-mean function 
heteroscedastic error 
conditional-mean models 
conditional scale 

conditional-mean modeling framework 

noncentral locations 

median regression 

least-absolute-distance estimation 

least squares estimation 

quantile-based measures 

minimum distance principle 

monotonic equivariance principle 

asymptotic inference 

bootstrap method 

distributional interpretation 

scale shift 

inverse 

empirical or sample cdf 
sampled distribution 
sample quantiles 
derivative 
scale and skewness 
quantile-based scale measure 
moment-based measure 
upper spread 

quantile-based skewness( QSK) 
average squared deviation 
mean absolute distance 
sample points 
mean squared deviation 
monotone equivariance 
quantile-based procedures 
quantile-regression model(QRM) 
one-model assumption 


译名对照表 


条件平均数 
条件均值函数 
异方差误差模型 
条件均值模型 
条件单位 

条件均值的建模框架 
非中心位置 
中位数回归 
最小绝对距离估计 
最小二乘估计 
分位差方法 
最小距离原则 
单调同变性 
渐近推断 
拔靴法 
分布理解 
尺度变化 
逆反函数 

经验或样本分布函数 
抽样分布 
样本分位数 
导数 

刻度和偏态 
分位差刻度测量 
动差法 
上端部分 
分位差偏态测量法 
均方差 

平均绝对距离 
样本点 
均值平方差 
单调同变性 
分位差程序 
分位数回归模型 
单一模型假设 






分位数回归模型 | ^ 

conditional median regression 

1 条件中位数回归 

the sum of absolute residuals 

; 绝对残差总和 

medianrregression line 

中位数回归线 

point/line duality 

点-线二元性 

exterior^point algorithms 

外点计算 

polyhedral surface 

多面体曲面 

linear equivariance 

线性同变性 

smearing factor 

拖尾因子 

asymptotic procedure 

渐近程序 

scalar multiple 

纯量倍数 

multivariate normal approximation 多变量正态近似法 

corresponding diagonal element 相应对角元素 

bootstrap sample 

拔靴样本 

reference and comparison 

参考与比较 

quantile-based skewness 

分位差偏态 

skewness shift 

偏态变化 

in-sync 

同步模式 

out of sync 

不同步模式 

Studentized Range Test 

差距检定法 

typical-setting effects, TSE 

典型设定值 

mean effect, ME 

均值效应 

confidence envelope 

置信封闭间 

top-coded 

顶端编码 
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社会科学定量研究的很多方法都是基于对个体行为的分析。我们通常将个体行为 
作为结果变量，然后将其表示成由一组解释变量构成的方程，最常见的就是回归方程的 
形式。社会科学理论主要就是描述这种结果变量和解释变量之间是如何关联的。当然, 
这种分析不仅停留在个体或者微观层面。有时，研究者也会分析集体层面的数据，比如 
街道、社区、公司、城市、县、州以及国家。但是分析的逻辑仍然相同。我们试图构造因变 
量和某些自变量(诸如个人、街坊、社区、公司、城市、县、州和国家)之间的关联，不管这种 
关联是否为因果关系。当我们这样做的时候，其实已经暗示了观测值的地理或者空间位 
置并不起作用。尽管研究者也会经常用虚拟变量将处 于同一 个地区的观测值合成一组, 
但这样做并没有考虑除了空间以外的其他相似性。比如，数据分析者常用虚拟变量来划 
分个体是来自美国南部还是其他地区。这样做是为了 控制一 些特有的文化特征，而不是 
出于对回归中空间依赖关系的考虑。空间回归模型一书将不遗余力地解决线性回归分 
析中空间依赖关系的相关问题。 

确切地说，我们将结果变量 y , 对解释变量的向量 x , 做 ols 回归： 

Yi = -f e/ 

这里 /? 包括被估参数的一组向量， e , 是服从独立同分布假设的随机误差。在经典线 
性回归中，假设分布为正态分布。当存在空间{或其他)依赖关系时, e , 将不再相互独立， 
并且导致^被低估，从而影响假设检验的正确性。 

尽管对空间问题的考虑可以追溯到早期在地图制作和调查方面的尝试，但是现代空 
间回归是直到最近几十年随着统计知识和计算能力的提高才出现的。本书作者向读者 
介绍了两种应用最广泛的空间回归模型 :空间 性定距因变董和空间性误差模型，此外还 
补充了空间分析中的疑难问题。尽管读者的分析单位可能与书中作者的分析单位并不 
相同，然而书中大量直观的例子仍然能够为读者提供有益的思考。 
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空间观念能够为社会科学研究作出巨大贡献。本书试图填补这一领域的 
空缺，为社会科学家完备地介绍如何将空间依赖性的分析纳人回归框架，让更 
多对社会科学中空间应用问题感兴趣的读者能够读懂此书。尽管当前已经有 
非常详尽的空间统计学调查，但是它们中的大部分都过于深奥，并且都假设读 
者已经具有丰富的高级统计和概率论知识 ( Banerjee，Carlin &- Gelfand , 2004； 
Cressie ，1993； Getis & Boots , 1978; Haining ，2003; Ripley , 1981， 1988； 
Schabenberger Got way , 2005)。 此夕卜，这些调查中的大部分都是自然科学的 
主题或者该方面的应用,而并不为社会科学研究者所熟知。我们假定此书读者 
仅仅了解社会科学研究中广泛应用的经典回归模型，同时他们对数据中可能存 
在的空间依赖性问题感兴趣。在某些部分，虽然我们会用到矩阵的表示形式， 
但同时也会用非数学语言对其进行详细解释。我们会用到免费且应用广 泛的尺 
计算平台 (R Development Core Team , 2004) 来演示如何使用这些方法，同时还 
提供了一段编码，对例子进行解释。如果读者对 i ? 的了解达到了达尔加德一书 
( Dalgaard , 2002) 所介绍的程度，将非常有助于理解本书的内容。尽管其他的 
程序和方法也可用于分析空间数据，但是本书中将不予以介绍，不过我们会以 
附录的形式提供一些简要的细节内容。 

本书的面世离不开外界的帮助。首先，我们要感谢家庭成员对于我们紧张 
工作的体谅。同时我们要感谢西班牙巴塞罗那经济分析研究所主任琼 • 埃斯 
特班 (Joan Esteban ) ，她给予我们热情慷慨的欢迎和巨大的支持，帮助我们完成 
了拖延很久的第一稿。迈克尔 • 沃德还要感谢统计与社会科学中心主任埃德 
里安 • 拉夫特里在他访问期间提供的帮助。同时，沃德还要感谢华盛顿大学艺 
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术与科学学院前院长和现任迈阿密大学校长大卫 • 霍奇以及华盛顿大学政治 
科学系主任史蒂夫_马耶斯基的帮助。克里斯蒂安 • 格里蒂奇得到了来自国 
家科学基金会的赞助以及来自加泰罗尼亚政府和加州大学的加斯帕 • 波多拉 
的旅行资助。 

华盛顿大学、加州大学圣地亚哥分校、埃塞克斯大学等地的前任或现任同 
仁们引导并激发了我们在依赖性数据上的兴趣。我们同样要感谢约翰 • 阿尔 
齐斯特、克里斯 • 巴基、凯尔 • 比尔兹利、纳撒尼尔 • 贝克、罗杰 • 比万德、曹 
汛、肖娜 • 费希尔、詹姆士 • 勒萨热、林泽民、迈克尔 • 曼格尔、阿西姆 • 普拉卡 
什、安德里亚 • 鲁杰里、伊德里 • 萨里希安、迈克尔 • 锡恩、克里斯多夫 • 沃德、 
丹尼尔 • 沃德、安东 • 韦斯特维尔德三世和艾里克_韦伯尔斯给予的深刻见解 
和有益的讨论。迈克尔 • 沃德要感谢他以前在科罗拉多大学行为科学研究所 
的两位邻座安德鲁 • 科比和约翰 • 奥洛林对他在地理方面兴趣的影响。克里 
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迈克尔 • 沃德、克里斯蒂安 • 格里蒂奇 
2010年12月 



第 1 章 I 导论 


交互作用与社会科学 

社会科学研究者总是对各种情况下不同行动的中间人(例如 :个人 、政治团 
体、群体和国家)之间的交往感兴趣。在很多情况下，个体行动者的行动动力和 
结果并不完全取决于个人特征，而是取决于社会结构及个人的社会位置，以及 
个体与个体之间的互动。即便是像流感这么平常的一件事情，也有社会因素的 
作用在里面，因为流感的传播也需要通过社会交往。比如想要预测一个人是否 
有可能染上鼻病毒，我们就需要考察最近周围是否有异常发生，同时这个人和 
感染鼻病毒的人是否接触过。有一些疾病是通过接触传染的，也就是感染者在 
和其他人的交往当中传播疾病。显然，不同类型的交往会导致不同的疾病。在 
20世纪70年代末期，艾滋病在美国的传播方式被指认为来自加拿大航空公司 
的单身服务员 ( Watt ， 2003)，但这已经被确认为误传。 

奇怪的是，交往的作用以及交往结构在社会科学研究中却几乎完全被忽 
略。比如说，在投票数这件事上，投票率差异以前都是通过个体特征，诸如教育 
髙低或者对政治行为的重视程度来解释的。然而，社会交往以及个体之间的相 
互联系是与个人特征同样重要的因素。例如，动员投票的电话平均会使投票率 
变动6个百分 A (±3%)( Im a i ， 2005)。类似的，个人和教堂、工会等组织有联 
系，也会增加投票率。贝别克和哈克菲尔德 (Baybeck & Huckfeldt , 2002) 就发 
现: 即便是在分散化的网络当中，间隔较远的个人之间也更少有频繁的交往。 
这种研究通常是一些例外，而不是惯例。大部分投票率研究仍然假定所有投票 
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者的决策是相互独立的。 

显然，在流感的例子中，将个体之间看作毫无关联，是一种明显不合逻辑的 
做法。有一些人可能免疫力更弱，所以更可能在流行病发生时得病。然而，我 
们不可能在不知道其他人是否染病的情况下，仅仅通过个人特征就预测出个人 
患流感的几率。又比如，父母通常在收人、睡眠时间、吸烟史上都与子女不相同。 
然而，一方有某种习惯，另外一方通常也会受到影响。社会关系模型的发展来源 
于心理学家对分离群体和个体间独立效应和交互效应的兴趣，同时他们试图将这 
种依赖关系用模型表示出来(参见 Kenny ， 1981； Malloy & Kenny , 1986)。 

在本书中,我们考察了空间分析的视角如何帮助研究者处理观测值之间的 
依赖关系及处理空间聚类现象。我们尤其关注两类含有空间因变量的回归模 
型。第一类是关注含有空间滞后因变量 (Spatially Lagged Dependent Variable ) 
的情形。第二类是关注空间性误差 (Spatial Enm )。 我们也意识 到:空 间性模 
型其实存在很多有趣的视角，但本书除了介绍空间滞后因变量和空间性误差， 
将不考察其他问题。尽管这些视角对于社会科学的经验研究大有裨益，然而到 
目前为止，很多文献仍然没有对此引起重视。这些模型使得我们可以考察一个 
观测值对其他相近观测值的影响。当然，我们相信这种重要性不仅体现在基本 
原理方面，最简单的道理其实是因为很多社会现象都是空间性“聚集”的。这些 
空间上排列的数据，既包括地理上观测到的个体位置，也包括在某个地理区域 
里的地区性数据。后一种数据类型称之为地区 ( area ) 或晶格 ( lattice ) 数据，而前 
者称之为点状 ( point ) 数据。在本书中，我们将重点放在地区性数据上，这种数 
据通常用于处理县、州、省、国家等个体单位 [1] 。 

社会科学中空间聚类现象是非常普遍的。投票的地区聚类问题就被认为 
在美国人的政治行为上起到了重要作用。政治分化与经济与种族上的分化是 
联系在一起的。正因为如此，投票率模型才不得不将各种分化的空间聚类效应 
考虑在内 ( West ， 2005)。相似的例子在比较政治学、社会学和经济学研究当中 
也可以找到。比如，在有关中央银行不同政策的影响的研究中，就有人曾考察 
过这些政策选择和中央银行以及银行家们的偏好之间的独立性。一种广泛的 
看法认 为:不 管中央银行如何不受国家主管机构的影响，它仍然受到各种各样 



地方情况的约束。因此，即便中央银行和国家主管机构之间互不干涉，中央银 
行的政策相互之间也是独立的吗 ( Adolph ， 2004； Franzese ，1999)? 默多克，桑 
德勒和萨金特 ( Murdoch，Sandler and Sargent , 1997) 研究过 20 世纪 80 年代欧 
洲排放硫化物和一氧化二氮的行为，其自愿和非自愿决定之间的相互影响关 
系。由于污染者们在空间上是分散的，并不受国界的限制，空间分析技术将有 
助于强调污染的外溢效应以及约束履行上的相互影响问题。在跨国研究中，不 
平等和贫困问题被认为是交织在一起的。在越穷的国家，财富和收人分配越不 
均衡。当前研究也发现贪污通常是贫困产生的结果，同时也可能成为贫困产生 
的原因。然而,研究也 发现: 收人不平等可能会增加贪污的程度，甚至大于对贫 
困的影响。一种更复杂的可能的情况是，财富和贪污在空间上具有聚类效应。 
空间分析就可以帮助我们解决这个难题。尤和卡格拉姆 (You and Khargram ， 
2005) 的当前研究就是按照这种思路进行的。最后一点，组织形式的扩展可能 
也是遵循相同的方式——比如政策效仿。霍姆斯 （ Holmes ，2006) 就利用空间 
模型探讨过工会组织的蔓延问题。 

. 简言之，社会科学中有无数研究数据都是按照一定的空间形式组织起来 
的，不管它们的分析单位是县、市、州、国家还是公司。通常，这些分析单位的特 
征都是高度聚类的，尤其是空间层面的地区聚类。在很多应用中，合乎逻辑的 
假设都应该包括观测值之间的相互关联性。在实际操作方面，这些聚类通常都 
被忽略不计或者被当作一种干扰。忽略这种关联性将会极大地影响我们在研 
究中建立有意义的推论。空间分析不仅为减少这种代价提供了一种方法，同时 
空间信息将有助于揭示社会过程之间是如何联系起来的。下面我们就将介绍 
在社会科学的一个重要分支中应用这种分析的简单例子——关于民主制度扩 
散的研究。 

世界各国的民主 

在引人空间讨论之前，我们先举一个数据中各观测值之间相互不独立的例 
子。社会科学家们很早就乐于解释为什么有的国家采用民主政治而有的却不 
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是如此。早期由李普赛特提出的一项颇具影响力的观点 认为： 民主制度是具有 
社会必要条件的。其中之一就是较高的平均收人;李普赛特注意到“在更加民 
主的国家……平均财富也更高” ( Lipset , 1959:75)。在过去的40多年里这种观 
点成为比较分析领域的奠基石，它表明平均收人更高的国家更可能建立民主体 
制。表 1. 1提供了一个数据简表，上面列出了 2002年世界70多个国家的人均 
国内生产总值 ( GDP ) 和民主水平。我们对民主的测量来自 POLITY 指数，它将 
国家按照一系列制度标准划分成不同的类别。在这一指数中 ，一 10代表最不民 
主的社会，10代表最民主的社会。格里蒂奇和沃德 ( GleditschandWard ，1997) 
提供了建构这种指数的更详细信息。我们在表 1. 1中将各国按照人均国内生产 
值 ( GDP ) 和民主程度高低排序，以便于找出变量之间的简单关系。正如我们所 
见，一些富裕国家，比如丹麦，的确是民主国家;同时低收人国家，比如塞拉利昂 
和朝鲜，就是专制国家。有趣的是，李普赛特曾提出在1959年，澳大利亚、比利 
时、加拿大、丹麦、爱尔兰、卢森堡、荷兰、新西兰、挪威、瑞典、瑞士、英国和美国 
构成了欧洲、北美和南美各洲一系列的“稳定民主体制”。而当时不稳定的民主 
体制和独裁体制包括奥地利、芬兰、法国、前联邦德国、意大利和西班牙。如今 
这些国家也变成了民主体制，并且基本上稳定了。尽管这些个案同李普赛特的 
论调是一致的，但是，财富和民主之间是否存在更普遍的强烈相关关系？尽管 
印度的平均国民收入很低，但它却实行了民主体制;此外尽管印度近年来经历 
了高速的经济增长，它仍然远远低于经济合作与发展组织 （Organization for 
Economic Cooperation and Development ) 成员国的水平。同时，中东地区很多 
专制国家却拥有很高的收入水平，这也是与李普赛特的观点相违背的。为了更 
一般化地估计这种关系，我们需要一种更加系统性的比较分析。 


表 1.1 2002年 GDP 数值 


国家 

民主 

GDP 

国家 

民主 

GDP 

几内亚 

-1 

51 

伊朗 

3 

1776 

埃塞俄比亚 

1 

114 

马其顿 

6 

1801 

布隆迪 

0 

120 

纳米比亚 

6 

1870 

扎伊尔 

0 

135 

罗马尼亚 

8 

1941 
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(续表) 


国家 

民主 

GDP 

国家 

民主 

GDP 

塞拉利昂 

-10 

172 

阿尔及利亚 

-3 

2036 

厄立特里亚 

-7 

175 

灘尼亚和黑塞哥维亚 

0 

2108 

马拉维 

5 

178 

泰国 

9 

2215 

伊拉克 

-9 

181 

苏里南 

9 

2224 

几内亚比绍 

5 

187 

危地马拉 

8 

2257 

利比亚 

0 

194 

俄罗斯 

7 

2279 

卢旺达 

-4 

216 

厄瓜多尔 

6 

2305 

莫桑比克 

6 

217 

秘鲁 

9 

2306 

塔吉克斯坦 

—1 

221 

哥伦比亚 

7 

2342 

尼日尔 

4 

247 

约且 

—2 

2375 

尼泊尔 

6 

276 

斐济 

5 

2397 

布基纳法索 

0 

315 

突尼斯 

—4 

2436 

乍得 

-2 

317 

萨尔瓦多 

7 

2486 

乌干达 

-4 

320 

南非 

9 

2607 

坦桑尼亚 

2 

330 

多米尼加共和国 

8 

2745 

中非 

5 

333 




土库曼斯坦 

-9 

1241 

加拿大 

10 

25139 

摩洛哥 

一 6 

1300 

芬兰 

10 

26235 

刚果 

一 5 

1303 

澳大利亚 

10 

26304 

吉布提 

2 

1313 

荷兰 

10 

27059 

白俄罗斯 

— 7 

1359 

瑞典 

10 

27497 




英国 

10 

27650 

斯威士兰 

— 9 

1412 

日本 

10 

31731 

阿尔巴尼亚 

5 

1416 

阿联酋 

-8 

34436 

叙利亚 

-7 

1417 

卡塔尔 

—10 

36611 

哈萨克斯坦 

一6 

1437 

丹麦 

10 

37063 

塞尔维亚 

7 

1573 

瑞士 

10 

39769 

埃及 

-6 

1602 

美国 

10 

40180 

缅甸 

-7 

1729 

挪威 

10 

43895 

保加利亚 

9 

1744 

卢森堡 

10 

54255 


注: GDP 值代表人均国内生产总值。本表有删节，全部数据可以在本册书网站上获取。 


自李普赛特 ( Lipset ，1959) 和以往其他学者的研究之后，有关民主的实证比 


较研究中通常都将民主作为人均 GDP 自然对数的线性函数。我们用 POLITY 





空间回归模型 


分数估计一个国家的民主水平，在纳入人均 GDP 之后，将其表示为普通最小二 
乘法 ( OLS ) 回归： 

POLITYscore = 择 + 房 In GDPpercapita + e 

该民主水平对于人均 GDP 的线性回归模型的估计结果见表 1. 2。人均 GDP 自 
然对数的正向回归系数表明民主和收人之间是正向关系，但是如果考虑到变量 
的测量单位，估计得到的影响效果其实是较小的。 

表 1.2 将民主视作人均 GDP 对数的线性方程的 OLS 估计 




SE(p) 

t Value 

截距 （ Intercept) 

一 9. 69 

2. 43 

一 3_ 99 

人均 GDP 对数 （In GDP per capita) 

1. 69 

0.31 

5. 36 


N- 158 


Log likelihood {df = 3) 513. 62 

F - 28. 77 idf x = 1, df 2 = 156) 

注: 估计值来自于 POLITY 项目和世界银行 2002 年数据。 

确切地说，此回归模型预测如果一个国家具有乌兹别克斯坦的人均 GDP 
(在2002年为464美元），那么这个国家的民主得分将接近于1。反过来，如果 
一个国家的人均 GDP 收入接近乌兹别克斯坦的两倍 （1020 美元），该模型就可 
以预测相对应的民主得分约为2。对于大多数分析者来说，在 POLITY 民主得 
分指数中，得分1和2是非常相似的。因此，即便收入水平上存在相对较大的差 
异，对民主水平的预测结果也不会相差太大，尽管人均 GDP 对数的估计系数在 
统计上是显著的。 

图 1. 1表明 OLS 方程对贫穷国家民主水平的预测远远高于它们的实际水 
平。在贫穷国家中（比如乌兹别克斯坦)，财富对民主潜在影响的估计效应不仅 
很小(即使人均 GDP 翻倍，对民主的影响作用也是很小的），而且这种效应还可 
能是被高估了。对这些残差的任何标准分析几乎都印证了该图给人的第一印 
象: 这些残差看上去并没有“很好地分布”，因为在最高值和最低值附近存在观 
测值的两个峰值，这表明模型低估或者高估了实际的民主水平。 
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(a) 



(b) 



图 1. 1 ( a ) 民主和人均 GDP 自然对数的散点图以及回归 直线； （ b ) OLS 残差密度图。它们表明 

分布较低端存在独裁体制的“聚类”效应和分布较高端存在民主体制的“聚类”效应。 


图 1. 1同时也表明围绕估计回归直线，或者说总体趋势上存在大量和呈规 
律的变化。但是这些残差的排列方式是由于观测值之间的相互关联造成的吗? 
图 1. 1的 ( b ) 图有力地表明残差并不呈正态分布，并且也不是一种单一 模式; 而 
是在值一 10附近有一组负值，同时在5附近聚集着一组正值。因此，这个例子 
明确表明表 1. 2报告的 OLS 回归残差是有问题的，进一步回归得到的估计系数 



空间回归模型 


453 


是否可信，也成为疑问。这些残差表明:该模型没有很好地把握民主和经济产 
出之间的关系，部分原因可能是因为数据之间的关联，即相似值之间的聚集作 
用。这可能是因为国家之间的相互影响所致。 


空间依赖关系介绍 


对于以上结果，一种可能的解释是:除了各个国家自身的特性以外，一个国 
家是否希望建立民主制度和周围国家是否已经建立民主制度是相互关联的。 
在冷战期间，苏联的干预就使得社会主义制度在很多东欧国家推行。此外，很 
多拉美国家发生的民主转型似乎也受到了其他国家社会进程的影响（参见 
Gleditsch & Ward , 2007)。如果将表 h 1的数据按照字母顺序排列，我们将很 
难判断是否存在一些相似体制国家所构成的区域，不同于我们从人均 GDP 中 
得到的预期类型。即便是按照国家的重要特征排列以后再进行比较，我们也需 
要经过仔细分析才能识别各种不同类型。 

在很多情况下，检验可能存在的空间 （ 以及类似空间的）聚集效应都是非常 
重要的，它将有助于我们发现是否因为表面的无关联而忽略了内在的社会互动 
关系。潜在且未观测到的聚集效应，可能会影响我们对于已有模型的理解，从 
而影响我们真正发现背后的实际过程。在讨论空间相关性之前，我们会先解释 
为什么这样做很重要。 

即便分析者们只是想要比较均值和建立经典统计检验，例如均值差检验， 
如果数据中存在空间相关关系，那么这种做法也是存在问题的。假设有一个针 
对变量7的单样本的£检验， 如下： 


t = ― ^― 
aNn 

如果邻近的观测值之间在时间上或者空间上相关(一阶序列相关），那么对于正 
向序列相关的值，它们的实际标准误将会偏大(对于负向值将会偏小）。研究者 
们对于不同时间点上观测值之间的序列相关问题一直比较谨慎，但是他们常常 
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忽略的是，即便是在同一时间点上，不同观测值之间也可能出现同样的序列相 
关问题。通过方差的非调整估计得到的 〖值将 比真实值更大。这将增大第一类 
错误 (Type I )发生的可能性，即便是在空间自相关作用很小、观测值很多的情况 
下，也不例外。 

简言之，由于观测值之间的空间序列相关(或其他原因），通过经典检验接 
受的假设结果将是有偏的，即便在检验结果不真实的情况下也是如此。假设数 
据在空间上是关联的，例如这种关联与观测值之间的距离成反比，^代表一阶序 
列相关的空间相关系数。这种相关测量了相邻值之间在一些测量属性上的相 
似程度。这种相关导致均值的真实标准误将近 似于： 



一种简单的理解空间相关的影响的方法，是假设一个变量^有 n 个观测 
值: M ， 災，…，％。在很多情况下，我们都认为这些观测值之间相互独 
立，并且服从同一分布 ，一 般是具有未知均值^和方差 a 2 的正态分布。对于" 
的一般估计 值为： 

n 

y = ^yi/n 

i=l 

由于假定观测值来自于正态分布，那么统计推断将基于 y 和心95%的置信区 

间为夕±1. 96^/士。如果 y 之间存在空间相关，也就是观测值％和 A 空间上 
隔得越近相似性越大，那么如同克里斯 ( Cressie ， 1993: 14) 指出的一样，对于取 
值为正的~其协方差 将为： 

COv(^ v^) ^ <7 2 X〆-) 1 

其方差为： 

n n 

var( JO = n -2 { 2 2 cov (3V ， ^>) } 

. : =1 j = l 

展开 即为： 




其中的 因子： 

实质上是根据空间相关程度对观测值的数量打了折扣，并且这种作用不会随着 
样本量增大而消失。如果 n = 10 和 P = 0. 26( 按照克里斯的例子），那么这种折 
扣效应约为40%： 10个空间相关的观测值的精度相当于6个独立观测值。换句 
话说，这也表明当观测值之间存在空间正向相关的时候，忽略这种相关所得到 
的置信区间将远远窄于真实的情况。一般来说，忽视空间依赖性，将可能导致 
对于数据真实方差的低估。因此，对于一个包含158个 GDP 观测值的样本，在 

正态分布假设下，其95%的置信区间为 (1. 96 X 0)/^，但是如果存在 0. 65的空 
间相关——上面例子中 GDP 的真实 f 值 一 那么正确的置信区间将会接近 
于 4. 22而不是1.96,几乎是原来的两倍。在民主发展程度的例子中，#为 
0. 47,那么95%的置信区间为 (3. 26 Xa )/^, 几乎增大了 70%[ 2 ]。 

如果空间相关具有不同的形式，那么就需要进行不同的具体调整，但是总 
的原则是如果空间相关为正，那么样本均值的精确性将降低。这通常将导致我 
们拒绝一个实际为真的零假设。此外，如果数据在空间上具有依赖关系（或者 
相互关联)，那么基于独立同分布 ( iid ) 的假设进行的统计检验将变得很不可靠。 
斯卡本伯格和果特威 (Schabenberger and Gotway , 2005) 详细叙述了在不同样 
本量和不同程度的自相关情况下最小二乘估计的过度变化。对于 pX )， 这种过 
度变化随着《的增大而增大，比如当 P = 0 . 9、样本量接近50的时候，这种过度 
变化将接近于14, 0。这里最重要的一点是，空间相关的数据将使基于 iid 假设 
的统计检验出现严重的问题，这也使得研究者因为标准检验低估了数据的变化 
而拒绝零假设。 



将地图作为可视化数据 


人们很擅长发现模式，即便是在没有模式存在的情况下，也是如此。通常 
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这也就是统计的作用。然而，在具有探索性和启发性的模型中，尽可能多地了 
解数据是非常有用的。包含丰富信息的密集表格是传递大量信息的重要方式， 
但是这种做法比较慢。图形展示作为一种辅助方法，将有利于从视觉上很快发 
现模式的存在。然而，重要的是，这种图形技术应该用于提供研究现象的可能 
解释上。当前的研究已经阐述了仔细展示证据和定量材料的重要性，并且提供 
了黄金准则 （ Cleveland ， 1993； Tufte , 1990，1992, 1997; Wainer , 2004) 0 一个 
指导性的原则是展示方法应当与已有的解释之间存在密切关系。 

一项有关伦敦19世纪中叶霍乱传播的经典研究就提供了一个基于地理解 
释的范例。该研究最早由约翰 • 斯诺 (John Snow ) 提出，后被蒂夫特 ( Tufte ， 
1997) 推广，最近被约翰逊 ( Johnson ，2006) 进一步完善。斯诺证明：1854年夏， 
伦敦霍乱爆发的原因在于家庭办公一族(以及其他人)的饮水来自于布罗德大 
街的水栗，而这些水受到来自于霍乱受难者墓场的污染。因此，靠近布罗德大 
街的水井就成为感染霍乱的潜在危险因素，同时这一研究也对否定霍乱的空气 
传播论起到了重要作用。斯诺的伦敦地图也成为利用空间相关展现因果联系 
的重要例子。图 1. 2提供了家庭办公地区的经典地图，从中可以看出，霍乱所导 
致的死亡大多聚集在布罗德大街的水泵附近。 

在地图上标注阴影也是展现包含地理因素的发生过程的一种重要方式。 
我们的例子表明 :邻近 的国家之间会存在相互反馈，这将影响它们的政治体制 
和经济财富。图 1. 3的世界地图将158个国家在2002年的民主发展程度用阴 
影标示岀来。这个地图告诉我们民主体制在相邻国家之间有聚集作用，同时在 
世界不同区域内的专制国家也是相互聚集的。在该地图中阴影越深，表示民主 
发展程度越高。 

只有那些具有最高民主得分的国家才被标记为 黑色; 例如法国被标记为第 
二深的阴影，这是因为它的民主得分为9,这也反映了它的总统和国民议会之间 
相对独立。图 1.3 表明： 民主制度和专制制度都存在很强的地理聚集效应。总 
的来说，大多数民主国家都位于西欧和美洲或者澳洲和大洋洲沿岸，而很多专 
制国家都位于非洲、中东和亚洲。 
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当然也存在例外，比如白俄罗斯，尽管周围大都是民主邻国，但它却依然保持 
着专制体制。相比之下，印度是一个民主国家，尽管周围邻国大多是非民主体制。 

在拉丁美洲，尽管国家之间在人均 GDP 上存在巨大差异，但大部分国家在 
2002年都是民主国家。相对而言,尽管中东国家的人均 GDP 水平普遍比世界 
平均水平高，但其中大部分都是专制体制。事实上，地图上的这些特征告诉我 
们 :民主 和人均 GDP 都是在空间上聚集的。在很多情况下，可视化和地图化都 
有利于揭示数据结构，而这种结构在表格形式的数据中是不容易发现的。 

图 1. 4展示了 2002年人均 GDP (取对数)的聚集情况。富裕的国家用更深的阴 
影标出，而更贫困的国家用更浅的阴影。图 1.4 也反映了很强的聚集效应。北美和 
西欧都是富裕国家的聚集地区，而非洲则表明通常贫困国家的邻国也处于贫困之中。 
当然也存在例外。比如日本和澳大利亚总体来说都比它们的邻国要富裕很多。 

将数据地图化将极大地帮助我们解释空间数据，但是好的展示也应该包括 
经验或者理论的解释。 



图 1.4 具有更高人均 GDP 水平的国家用更深的灰色表示 


空间依赖性和相关性测量 


可惜，正如研究者可能忽略数据矩阵中某种模式一样，他们可能在没有结 
构存在的情况下也找出了某种结构。正因为如此，我们有必要寻找更正式的方 
式，来衡量观测值是否存在空间聚集，或者相互之间是否通过某种联系关联在 


一起。我们将在下一节转向正式的探索方法。 

然而，解释这些关联需要我们已知哪些观测值有可能相互联系。对于包括 
n 个元素的一组数据集，每个观测值 i 可能会和剩下的 (〃一 0个可能的元素相 
关，但是，在实际中，我们通常假设某些相关关系或者联系将比其他的更重要。我 
们感兴趣的元素之间的网络或者结构通常必须在分析其他元素之间的关联关系 
之前就被明确指定。这里我们用到的技术通常起始于关联观测值之间关系的一 
幅图或者一个列表 L 。 基于种种原因，符合实际的做法是利用矩阵来表示观测值 
之间的关联性。比如，我们定义一个二元矩阵 C 来指定个体观测值之间的联系。 
如果两个观测值 i 和 j 被认为相互关联，那么输入值 Q =1，反之则 q =0。 

测量空间关联和相关的基本思路类似于向量内积，根据休伯特 （ Hubert ), 
戈利 ( Golledge ) 和科斯坦索 ( Constanzo ，1981 ) 的看法，这表示将一个空间接近 
性的测量与另外一个在某些特殊属性 [2] 上的相似性的测量交叉相乘。令 S i} 为 
两个观测值 i 和 ； 的空间接近性的测量，同时令表示所关注的某个潜在变量 
的相似性。向量内积的统计量的一般形 式为： 

t *=i j=i 

如果相似性 Ud 被定义为某潜在变量均值正态化后得到的内积 ( mean - normal - 
ized cross - product ) ，比如 [ (% —夕 ）（3 V — 夕） ] ，那么经过适当的比例调整，再 
将所有观测值的这个量加总，就可以得到一个空间相关性的测量，称之为莫兰 
( MoraiOZ 统计量。如果％被定义为差值的平方，比如（^一％ ) [3] ，得到的统 
计量就被称为吉尔里 ( Geary ’ sX ：。 在本书中我们主要关注莫兰 ( Momn )：^ 4 ] 
例如，在测量民主的例子中，空间相关性将涉及测量国家之间一些空间指 
标上的邻近程度（比如国家之间是否在200千米内接壤)和每对国家在民主得分 
上的相似性。这些统计指标将有助于发现或者探索空间模式。可能它们最有 
用的地方在于探索诊断那些原本模型中没有考虑到的空间模式的残差。 

估算这些相关性的首要目标是确定数据之间的相互关联作用。这要求我 
们给出观测值之间如何关联的列表。尽管这一步非常重要，但除此处之外，我 
们将不会进行过多的阐述。数据之间的连接可以通过物理上的距离来建立，比 
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条列清单式 

连接线 


德国，挪威，瑞典 
挪威，瑞典 
德国，意大利，英国 
丹麦，法国，意大利，瑞典 
法国，德国 
丹麦，芬兰，瑞典 
丹麦，芬兰，德国，挪威 
法国 

连接矩阵格式 


然而，每个表都能很容易地被转换成一个方形矩阵，该矩阵描绘了沿行和列排 
列的观测值以及矩阵内部的关联。矩阵形式同样有利于明确变量定义或反映 


丹麦芬兰法国德国意大利挪威瑞典英国 


如首都之间的距离。然而，其他的传输途径比如公路、铁路、水路以及航运等交 
通网络的密度在某些情况下可能是一个更好的连接指标。类似的，除了首都城 
市之间的距离，学者们也曾使用两个枏邻国家之间的边界长度，作为它们交往 
机会的测量。在格里蒂奇和沃德 (Gleditsch and Ward ，2001) 的研究中开发了 
一个数据库来记录世界上所有国家之间的最短距离。这里我们将使用该数据， 
如果国家之间的最小距离小于200公里，那么认为它们是邻国。 

表 1. 3按照两种方式列出了这些数据的一个子集，首先按照列表形式，然后 
按照矩阵形式。很多电脑程序将大的矩阵按照列表的形式排列，因为这样仅仅 
将非零的元素保存在记忆体中，可以更有效地存储信息。实际上，对于小的子 
集，列表存储方式更便于存储数据，且更有利于推导空间特征^ 

表 1.3 欧洲国家子集的连接矩阵 


家麦兰国国利威典国 
大 

国丹芬法德意挪瑞英 



麦兰国国利威典国 
大 

丹芬法德意挪瑞英 
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空间结构和变化的测量。表 1. 3的第一部分表示一组列表形式的连接 数据; 第 
二部分是相应表示二元连接的矩阵 C 。 

这些数据也可以通过简单网络图来展示，如图1.5。这种图非常具有启发 
性，但是一旦节点数量很多，它们就会变得难以阅读。图 1. 5( b ) 就展示了 158 


(a) 

挪威 



(b) 



图 1. 5表 1. 3中158个国家数据的简单网络： （ a )8 个欧洲国家之间的关联； 

( bM 58 个国家之间的关联 

注 : 在 (b) 组中美国是黑色而俄罗斯为灰色阴影。节点大小与 200 千米以内国家的数量成比例。 



个国家的网络图的拥挤情况。然而，这种视觉网络表现法可能会对某些数据， 
尤其是小数据的情况非常有用。 

一旦构造一个观测值之间连接的可能网络，用列表 L 表示或者用连接矩阵 
C 表示，我们就可以试图找出所关注的某个变量的取值(这里用: y 来表示)是否 
与相互连接或者相邻的观测值相似。一种可行的方法是观察两个相连的观测 
值 z 和 j 是否相似，比如 :判断 〖观测值的高低是否和）观测值的高低共变。通 
常^会和很多观测值相连，除非它和很多邻近观测值都相似，否则空间聚集效应 
也不会存在。为了整合相互连接的观测值的有关信息，我们通常假定所有的邻 
近观测都具有相同权重，并且每一个的权重都将是1比上总的连接数量的比例。 
计算空间滞后 (Spatial lag ) 的主要目标，是得出周围区域的均值。美国周围邻国 
的平均民主得分是多少呢？加纳邻国的平均人均 GDP 是多少呢？这些邻国的 
均值与每个国家自身的民主得分或者人均 GDP 有关吗？我们提供了一个探索 
性的统计量，来测量空间相关性。研究者可以以同样的方式生成独立变量之间 
的相关矩阵，这种空间相关可能会为观测数据提供探索性的信息。 

令 〆 表示^的所有相关观测值的均值或者平均数，或者叫: y 在空间上的“滞 
后 ( lag )”。 矩阵表达方式将有助于发现基于 y 所建立的空间滞后 Y 以及连接矩阵 
C 。 我们可以构造一个行标准化的连接权重矩阵 W ， 该二元连接矩阵 C 中将每一个 

行向量 G 除以总的连接数$>，使每一行加起来为1。表 1. 4中给出了一^例子。 


表 1.4 含有8个欧洲国家的数据子集的行标准化连接矩阵 



丹麦 

芬兰 

法国 

德国 

意大利 

挪威 

瑞典 

英国 

丹麦 

0 

0 

0 

1/3 

0 

1/3 

1/3 

0 

芬兰 

0 

0 

0 

0 

0 

1/2 

1/2 

0 

法国 

0 

0 

0 

1/3 

1/3 

0 

0 

1/3 

德国 

1/4 

0 

1/4 

0 

1/4 

0 

1/4 

0 

意大利 

0 

0 

1/2 

1/2 

0 

0 

0 

0 

挪威 

1/3 

1/3 

0 

0 

0 

0 

1/3 

0 

瑞典 

1/4 

1/4 

0 

1/4 

0 

1/4 

0 

0 

英国 

0 

0 

1 

0 

0 

0 

0 

0 


注: 连接存在于国境线距离小于200千米的国家之间。 
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在这种情况下，标量 M (通过相加)计算了元素 i 所有相邻观测值的 

平均值或均值。这通常称为空间滞后 。 y = Wj ； 这组关系告诉我们每一个^和 
其他国家的^以及连接权重％之间的关系。表 1. 5列出了民主变量的10个最 
大的正向和负向空间滞后。例如，巴林的民主得分为一8,但是它周围的所有邻 
国都是具有最大负向民主得分一 10。 另一方面，爱尔兰和葡萄牙具有最高民主 
得分，而它们的邻国也一样。 


表 1.5 最大和最小空间滞后的10个国家 


国家 

民主 

空间滞后 

国家 

民主 

空间滞后 

最大负向空间滞后 



最大正向空间滞后 



巴林 

-8 

-10 

卢森堡 

10 

9.8 

塔吉克斯坦 

-1 

- 7.1 

瑞士 

10 

9.8 

阿曼 

— 9 

-6.7 

英国 

10 

9.8 

吉尔吉斯斯坦 

—3 

一 6. 6 

比利时 

10 

9.8 

阿联酋 

—8 

一 6. 5 

荷兰 

10 

9.8 

乌兹别克斯坦 

—9 

-6 

加拿大 

10 

10 

卡塔尔 

—10 

— 5. 8 

斐济 

5 

10 

也门 

-2 

一 5. 5 

法国 

9 

10 

科威特 

—7 

— 5, 3 

爱尔兰 

10 

10 

以色列 

10 

-5 

葡萄牙 

10 

10 


注:对 应于每个国家，列出的是它们相应的民主得分和空间滞后的民主得分。 


接近性测量 

对很多社会科学家来说，空间分析中最重要的一步是测量个体间的接近 
性。在社会环境中，距离是什么呢？比如，尽管物理学家们可以用严格的地理 
或者欧几里得距离测量树和树之间的距离，但测量距离在社会科学分析中却要 
复杂得多。例 如:美 国和墨西哥之间隔多远呢？如果我们使用严格的连续性测 
量，这两个国家是最理想化情况下的邻国，因为它们具有共同的边境线。但是 
加拿大和美国也具有共同的边境线。这表明它和美国的距离与前者一样大吗？ 
从华盛顿特区到墨西哥城的直线距离是3000千米，但是从华盛顿特区到渥太华 







^ I 高鼴 B 扫分析 


的距离为 700 千米。我们也可以使用国家之间边境线的长短或者最大的10个 
人口中心的平均距离来测量国家之间的距离。图 1. 6给出了这两种不同识别方 
法的区别。一些国家版图的中心（空心圆点）和它们的首都(黑色圆点）之间的 
距离非常远，但是，在一些小国就不会出现这种问题。中国、加拿大、俄罗斯、澳 
大利亚和美国都属于两种圆点之间距离较远的类型。相对而言，在朝鲜和韩 
国，版图中心和首都之间的距离就非常小。 

在实际应用中，另外一个重要的问题是如何处理缺失的空间数据。插补方 
法 ( Imputation ) 就是一种处理方法，当然也有其他办法 ( Griffith , 2003)。真正 
的问题在于社会科学的数据通常存在缺失问题，而且很少是随机缺失的。在不 
是空间数据的情况下，这种缺失可以通过标准方法处理——利用插补方法，或 
者更常用的是将删除有缺失信息的观测值。然而在空间数据结构中，这些缺失 
可能会在空间图上产生一些“洞 ( holes )”， 从而使我们不能准确完整地表现空间 
上的接近性。在空间结构上，另一些可能出现的问题是，某些观测值不与其他 
观测值相连。例如，新西兰在200千米之内就没有其他独立的国家。有两种避 
免出现这种情况的常用的办法。通常我们会从分析中删去岛国，这是因为在很 
大程度上它们没有连接对象，从而也不会影响研究中其他观测值的空间过程。 
更显而易见的原因是，删除它们之后，可以排除空间加权矩阵中的奇异阵情况 
(也就是行或者列完全由0组成)。第二种方法是选取岛屿最邻近或者最可能的 
邻国，比如将澳大利亚作为新西兰的邻国连接，即便其他观测值都选取200千 
米，作为它们之间是否有连接的标准。更一般的情况是，可以对所有的个体选 
取最近的丨个邻国距离。 

图 1. 6可以通过下列的 R 命令生成。 


井 Set working directory 
dd <- c (，， C : …"） 
setwd ( dd ) 


# Plotting map with centroids and capitals 
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Load required libraries 
library(RColorBrewer )； library(maptools) 
library( spdep) ； library( sp) ； library( rgdal) 

井 Read a Robinson projection map from an ESPI shapef ile 
rob. shp 〈一 read, shape(”wg2002worldtnap. shp") 

井 Indicate the id cedes for each polygon/country 
rob. map < - Map2poly(rob. shp, region, id = 

unique (as. character (rob. shp $ at±. data $ FIPSjCNTRY)))) 

# Indicate the map projection 

tr <C - readShapePoly( H wg2002worldraap" ， IDvar = "FIPS 一 CNTRY " ， 
proj4string = CRS(" + proj = robin + Ion 0 = 0 ”）） 


# Extract the relevant variables and exclude missing data 
ct <C _ na. omit(rob. shp $ att. data[,c(1, 18 ： 20)] 

# Assign relevant variable/coluinn names 
colnames(ct) <— c("ID" ， "x" ， n y n , "City—P0P n ) 
ct $ x 〈 一 as. numeric (as. character (ct $ x)) 
ct$y< - as. numeric (as. character (ct $ y)) 

# Add coordinates 
coordinates (ct) <C - c("x" ， "y ”） 

proj4string(ct) <_ CRS( H + proj = longlat + datum = WGS84 ff ) 

# Transform the coordinates to the robinson projection 

ct—rbspTransform(ct, CRS = CRS(" + proj = robin + lonO = 0")) 

# Replot the map itself without a bounding box 
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plot (rob. map, border - n Grey n , forcefill = T, xaxt = Tf n n , yaxt = TI n TT , 
bty= n n Tf , lwd= .000000000125, las = 1, ylab= ,MT , 
main = "Centroids and Capitals" , xlab = ””） 

# Add the centroids 

points (coordinates (tr) , pch = 19, cex = . 5 ， col = n grey T, ) 


# Add the capitals 

points(coordinates(ct—rb) ， pch = 19 ， cex = . 5, col = "black") 

社 Add segments between centroids and capitals 
tr—or 〈一 coordinates(tr) 
rownames(tr—or ) 〈 - 

as. character ((attributes (tr) $ data) $ FIP S—CNTRY) 
ct—rb—or 〈- coordinates (ct—rb) 
rownames(ct_rb_or ) 〈一 as• character(ct_rb $ ID) 

^ Delete Kiribati (91) ， as longitude extends across 
international date line 

coor—dif 〈- cbind(tr_or[ -91,], ct_rb_or[rownames(tr_or),][ -91,1]) 
xl 〈 - coor—dif [ ， 1] 
x2 〈- coor—dif[ ， 3] 
yl <； - coor 一 dif[ ， 2] 
y2 〈- coor 一 dif [ ， 4] 

segments (xl, yl, x2, y2, col = " slategray4") 


以上我们列举了两种测量距离的基本方法，但是这还停留在表面。对距离 
的度量，也可以用平均行程时间、每两点之间的移动电话通话数目、两地之间的 
旅游观光数量，或者其他任何形式的关于距离与交往的测量。例如，国家之间 
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有大量的贸易活动，就可以被认为在经济上“密切” ( Lofdahl ， 2002)。格里菲斯 
( Griffith , 1996) 就提供了一些这种测量的想法和操作方法。 



图 1.6 地理中心(空心点)和首都(黑点)之间连线图 


我们通过: y 和 y 之间的相关程度，来测量国家自身的民主发展水平和它们 
邻国的民主水平的关联，这看起来是一件合乎常理的事情。某国自身取值与各 
邻国的加权平均值之间的线性相关被称为莫兰 I 统计量 （ Moran ，1950 s , 
1950 b ) ，这个全球相关 （global correlation ) 包括一个观测值和它邻近值之间的 
所有取值。广义的莫兰 I 统计量用一个加权的成比例的向量内积表示： 

(: yi 一夕）（％ 一夕） 

j = » j 由 _ 

(2 h — 夕) 2 

i j^i i 

其中 w 表示行标准化的加权矩阵 W ， 3^是我们所关注的变量。 

I 被认为服从正态(渐进)分布，其均值为 一 l /( n — l )。 莫兰 I 的方差可表 示为： 
var ( I ) = 

ri'in — Y) 4-^] (*^ +^) 2 —n(w —1)2 + Su;*) 2 — 2(^] 叫 ) 2 

_ 乙 m _ k j _ *__ 

(n + l)(«—1) 2 (2> 々 ) 2 

如果将所关注的变量标准化为 A ，莫兰 I 可以简 化为： 

I = \ Yj C ij Z i Z ) V f ^ > 

乙 ij 

莫兰 I 统计量通常通过建立包含均值和方差信息的 z 值来检验空间相关性。 
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莫兰 I 并没有一个真正固定的度量标准，但是它的期望值是一 1/(〃 一 1)，而 
不是 0。 然而，莫兰 I 统计量可以用图形来解释，帮助我们理解个体之间的不同 
空间相关程度如何导致该统计量的取值变化。比如一个5和其邻近值平均数 
^的散点图[这里我们使用标准化的$ = b — 50/ W (30 使得均值为0,标准差 
为1]。在这个图中，观测值在四个象限里围绕夕和7的均值分布，这反映了变 
量^的空间相关关系。如果^没有空间聚集关系或者存在相关关系，/的值将 
不会随着^的变化而发生系统性的变化。然而，如果存在正向空间相关，个体 
观测值的取值高于或者低于的均值将在 y 上(或者说在邻近国家中)相应地 
反映了高或低$的趋势。大部分的点将落在第一和第三两个象限，在这些位置， 
个体和它们的邻近值是相似的，而位于第二或第四象限的观测值将会比较少。 
如果我们对散点图画出它们相应的回归直线，它的斜率就是针对原始变量^和 
连接列表或者矩阵 c 之间的莫兰 I 相关系数。 

图 1. 7以一种固定格式说明了莫兰 I 统计量，并解释了变量及其一阶空间 
滞后量组成的散点图。回归直线的斜率表示数据中空间相关性的平均数;也就 
是莫兰 I 统计量。 

莫兰 I 通过调整5的变化以及每个观测值相邻点的数量，比较了；的所有 
邻近点和均值之间偏差的关系。莫兰 I 值越髙，表明地理上的聚集作用 越强; 也 
就是说，邻近取值的相似性越大。这个统计量测量了一个观测值和它的邻近点 
之间的平均相关关系。图 1.7 就解释了这个基本概念。空间滞后情况(某点的 
邻近点的平均值)用纵轴表示，而横轴表示每个观测值的取值，标准化以后使得 
其均值为0、方差为1。方框表示±2,大部分的观测值都落在这个边界内(注意： 
在这里 2 a =2,因为变量经过了标准化）。那些落入阴影方框的观测值表明其 
拥有同质性很强的邻国。那些落在高于(0, 0) 和(2, 2) 阴影区域的观测值表明 
其取值高于均值，并且它们的邻国的平均取值也高于均值。类似的，落在(0, 0) 
和(一2, 一 2) ②之间阴影区域内的观测值低于均值，同时它们的邻近点也如此。 


① 原书此处为低或高。应该为笔误。——译者注 

② 原书这里为(一2, 2), 根据上下文应诙是一处笔误。——译者注 
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— 3-( 低，低 ；） （闻，低） 
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— 3 —2 —1 0 1 2 3a 

标准化变量 

图 1.7 变置和其空间滞后的散点图 

注:变 量经过标准化使得其均值为 0. 方差为1。同质性的邻近观测值聚集群用阴影部分标示。图 
中也给出 OLS 回归直线。 

针对莫兰 I 系数的统计检验，需要加入其他假设，因为在简单概率检验的经 
典框架中，需要用到一阶和二阶矩(均值和方差）。在假设检验框架中，经常被 
忽略的重要一步，是明确零假设。对空间模型而言，由于在不同的空间变量中 
可能存在各种迥异的模式，因此零假设就显得很不明显了。比如，空间模式是 


这个散点图的对角线区域有很多观测值，这反映了相似值的聚集效应。图中也 
有一些点所代表的观测值自身低于观测变量的平均值，但是，平均而言，其邻近 
的点却远高于变量的均值。在散点图的左上角部分的一个点就是这种情况，它 
可以被看作是一个被取值很高的邻近点包围的、而自身取值很低的孤立点。针 
对这些标准化后的观测值的 OLS 回归，可以生成一个概括观测值及其邻近点之 
间取值关系的测量值。举个例子，如果我们关注的变量为犯罪率，并收集了休 
斯敦市每个管辖区的数据，在图的右上部分将是具有高犯罪率的管辖区，其周 
围也是高犯罪率的地区。类似的，左下角代表自身犯罪率低而周围犯罪率也低 
的地区。穿过这些标准化点的回归直线的斜率就是莫兰 I 统计量。 



3 ak 低，高） （高，高) 
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正态分布的吗？还是随机分布的？如果是随机分布的，那么在空间中是完全 
随机的吗？ 一般来说，在当前文献中，有两种解决办法，但它们在一定程度上 
都是事先设定的 (ad hoc )。 第一种方法假设数据是正态分布的。克里夫和奥德 

(a) 



-3-2-10 1 2 3 

图 1.8 标准化变置与其空间滞后图 


(a) 民主化，莫兰I = 0. 64; (b) 人均 GDP， 莫兰I = 0, 65 
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(Cliff and Ord , 1971) 计算出这种情况下 I 的方差。尽管很多研究表明假设莫 
兰 I 为正态分布通常是错误的 （Boots and Tiefelsdorf , 2000； Tiefelsdorf ， 
1972) ，但是大多数软件和应用文章仍然使用正态性假设 EC 。第二种方法是利 
用蒙特卡洛模拟 (Monte Carlo simulation ) ，对连接矩阵随机出足够多次的行列 
变换，从而得到一个随机化的零模型。大多数统计软件都会提供这两种主要方 
法供选择，它们通常(当然也不总是)会得到相似的结果。 

图 1.8( a ) 给出了民主得分标准化后的散点图。该图将 ±2 tr 用方框标出，为 
了便于发现哪些观测值过度异常。右上象限表示得分较高并且周围也是较高 
得分的观测值。位于左下象限的点，表示得分较低并且周围也是相似较低得分 
的个案，巴林就是其中一个极端的例子。在图 1.8 中，非对角线上的点表示这些 
国家和它们邻国的民主水平差别很大。正如图中所示，对于专制国家这样的个 
案是非常少的(最例外的情况是白俄罗斯)，而对于民主国家这样的个案更是少之 
又少。图中也画出了回归直线，它的斜率就表示民主的莫兰 I 统计量(为 0. 64)，这 
个值比该统计量在这个例子中的期望值要大得多（一1/158)。图 1. 8( b ) 表示人 
均 GDP 。 几内亚位于左下角，已经超出了 2 a 的方框 范围; 卢森堡在右上角也超 
出了该方框区域。 

我们可以根据表 1. 2中 OLS 估计出的残差的莫兰 I 来考察残差的变化是 
否表现出空间聚集 [7] 。这仅仅是一个探索性的考察，在原始数据中使用莫兰 I 
的作用差不多。利用 R 软件可以很容易地完成，定义一个回归目标 olsl . fit 并 
取列表 nblist 中200千米边界范围内的其他国家作为其“邻国”。 

source ("chapterldata. R n ) 

olsl.fit 〈一 glm(democracy 〜 log(gd^_2002/population), data= sldv) 
library(spdep) # Load spdep library for moran. test() 

moran. test(resid(olsl. fit),nb21istw(nblist)) 
lm. morantest(olsl. fit,nb21istw(nblist)) 
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根据 OLS 残差计算出的莫兰 I 统计量为 0. 40,方差为 0. 002心相应的标 
准分为 7. 77,它比一 1/158要大得多，同时对应的 f 值〜0。这表明基于观测值 
之间相互独立的假设得到的 OLS 结果受到因变量和自变量的空间聚类的强烈 
影响。因此，这可能误导了我们在统计上和实际上推断民主和社会财富（由人 
均 GDP 表示)之间的关系。 


估计空间模型 


空间分析的一系列步骤简单来说是怎样的呢？ 

第一，将数据在地图上标示出来，尤其是因变量。这可以在很多种环境中 
完成，比如数据表插件 (spreadsheet plugin ) 、地图混搭程序 （map mashups ) ，以 
及 GIS 软件包，但是最好的情况应当是能够统计分析的平台。我们将介绍 R 库 
的使用，尤其是通过 maptools 和 spdep 创建变量分布的简单地图。 

第二，同时，判断因变量上是否有明显的空间相关。对于本书中的大多数 
方法（即不是点过程 [point processes ] 的方法），这是指计算莫兰 I 统计量来估计 
空间相关的大小。分析者在有的情况下希望通过局部空间相关指标 (Local In ¬ 
dicator of Spatial Association , LISA ) 来考察和绘出每个观测点对空间相关的 
贡献。本书将不详细讨论这一点。更多有关的讨论和例子，可参见格里蒂奇和 
沃德 (Gleditsch and Ward ，2000) ，安瑟林 ( Anselin ，1995) ，以及奥德和格蒂斯 
(Ord and Getis ，1995) 的文章。 

第三，将这些空间滞后变量准确地合并到基本的统计框架中，并且检验得 
到的残差是否仍然是空间相关。 

第四，除了利用正态模型探索方法估计模型拟合程度和预估参数的不确定 
性程度，我们也需要计算和检验均衡效应 （equilibrium impact )。 这表明需要梳 
理出估计得到的空间模型的均衡效应和相互反馈的作用。 

下面我们将根据当前的例子来讲解这些步骤。 
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将数掮地图化同时建立空间权重矩砗 


我们已经讲解了如何将2002年158个国家民主得分的数据在地图上标示。 
在这一节当中，我们将讲解如何将 OLS 回归残差在地图上标示。在前面的图 
1.3 和图 1.4 中，数据自身在地图上就已经标示出来了。我们同时 发现: 使用收 
入对民主进行回归之后，其残差也表现出空间相关性。我们通过定义200千米 
距离内的“邻国”计算得到莫兰 I 。如前面提到，该例子中莫兰 I 为 0. 4,其方差 
为 0. 0028。在一般情况下这种显著结果让我们确信从图 1. 3和图 1. 4中观测 
到的空间模式实质上影响了回归结果，也就是说，它造成了估计和标准误的偏 
差。图 1.9 反映了 OLS 中的残差。 



图 1.9 在地理上显示 OLS 回归的残差 


寻找空间类型 

根据锡恩 ( Shin ，2001) 的研究，我们也可以创建一个锡恩空间散点图 (Shin 

spatial scatterplot) 0 该图画出了每个输入变量标准化后的值-在这里为残 

差——和相对应的空间滞后或者是与其相连接的观测值的均值（图 1. 10)。 
阴影框表示当某值大于残差均值时，其邻近点也为正值的情况。坐标轴上包 
括一个“毯图 (rug plot)” 用于表明变量的分布。外部边缘区域表示对变量本 
身以及其空间上估计分布的核密度分布 （kernel density )。 生成此图的代码 
如下： 
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pdffilename 〈一 c( "file name and path") 

pdf(file = pdffilename, width =5.0, height = 5.0, family = "Times’ 1 ) 
dem 〈一 (resid(olsl, fit)) #residuals 

ds <C~ (dera-mean(dem)) /sqrt(var(dem)) 井 standardized democracy score 

# create spatial lag and standardize it 
ds. slag < - as. vector(wmat % ^ % ds) 

ds. slag 〈一 （ ds. slag 〜 mean(ds. slag)) /sgrt(var(ds. slag)) 
plot(ds, ds, slag, xlim = c( 一 3 ， 3) ， ylim = c( —3 ， 3) ， pch= 20， las = 1, 
xlab = " standardized democracy", 
ylab = "spatial lag of standardized democracy") 
regl〈- lm(ds. slag 〜 ds) 

# establish a grid 

xgrid < — sq( -3, 1. 5, length, out = 158) 
xO <C - list(ds = xgrid) 

pred, out 〈一 predict(regl, xO, interval = "confidence") 

# put X and 2 sigma boxes on plot 

lines (c(-2, -2, +2, +2 ， -2) ， c(_2 ， +2 ， +2 ， -2， - 2)) 
lines (c(_l, -1, +1 ， +1 ， -l) ， c (一 1 ， +1 ， +1，- 1， — 1)) 
lines (c (-2， + 2) 5 c(0, 0)) 
lines ( c(0, 0), c( -2, +2)) 

# some text for context 

text (- 2. 5 ， 3， n (low, high)"; text(2.5, 3, "(high, high )’’） 
text( - 2. 5, -3, Tf (low, low)’ 1 ; text(2. 5 ， —3 ， ,T (high, low )”） 
polygon(x = c( -1 ， 0 ， 0 ， _1) ， y- c( - 1 ， _1 ， 0 ， 0) ， col = M slategray3 n ) 
polygon(x= c(0, 1, 1, 0), y=c(0, 0, 1, 1) , col = ,T slategray3") 
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# plot c. i. region 

polygon(x = c(xgrid, rev(xgrid)), y= c(pred. out[, 3 ]， 

rev(pred. out[, 2])), col = "slategray3 n ， border = T) 

# put data on plot 

points(ds ， ds. slag ， pch= 20) 

井 densities 

sldensity < - density(ds. slag) 

lines (sldensity $ y + 2, sldensity $ x, lty = 2 ， col = " slategray4 ,T ) 
ddens ity 〈 — dens ity (ds) 
lines (ddensity$ x), ddens ity 

$ y + 2, Ity =2， col = "slategray4” ， xlim = c(- 2 ， 2)) 
points(ds, ds.slag, pch = 20) 

lines (xgr id, pred. oat[, l], type= n l M , Ity = 2, col = M gray80 H , lwd= 2) 

# rugs on two sides 

rug(jitter(ds, factor = 2), col = M slategray3") 
rug(ds. slag, side = 2, col = ”slategray3") 

# label some points 

text( - 2. , -2.3，"Oil Exporters" , col = n slategray4") 
dev. off() 


接下来我们将考察民主测量上的空间关联性。民主变量的空间滞后，简单 
来说，就是周围国家的民主水平的平均数。这里邻国民主得分高的国家，其自 
身的分值也高，同时其邻国专制程度高的国家，其分值也负得越大。我们在 
图 L 11中将它们在地图中画出来。该地图显 示:位 于非洲和亚洲的国家，其邻 
国都是非民主国家，而欧洲和大部分美洲国家的邻国都为民主国家 ( Gleditsch ， 
2002a ) 。 
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图 1.11 民主的空间滞后性(颜色越深表示空间滞后变置值越大> 


其执行代码 如下: 


林 sldv2 is the data, frame 

祐 mdd2 is the minimym distance data, frame 

nblist < - vector(mode = ”list" , length = dim( sldv2) [ 1 ]) 

attr(nblist, ’’region, id”）O sldv2 $ tla 

attr(nblist, "class”）<_ "nb” 

nbnmsO data. frame(sldv2 $ tla, c(l ： diia(sldv2) [1])) 
names(nbms) 〈- c ("acr” ， "nm") 





空间回归模型 


477 


min200 <C - rxjd2\_wddZ $ mindist< = 200,] # Create an index of the isolates 
nodata < - setdiff (sldv2 $ tla, unique(c(min200 $ ida, min200 $ idb))) 


# Find neighbors for each row in the sldv for( i in 1 ： dlm( sldv2) [1] ) | 
temp < - min200[min200 $ ida= = sldv2 $ tla[i][ 

min200 $ idb = = sldv2 $ tla[ i],] 
cty <C — unique(c (temp $ ida, temp $ idb)) 
cty < - setdiff(cty, sldv2 $ tla[i]) 

nblist[[i ]] 〈一 nbnms[ match (cty, nbnms $ acr), "nm"] 

1 

井 wmat is the row standardized weights matrix 

wmat < - matrix( 0, ncol = dim( sldv2) [ 1], nrow = dim( sldv2) [ 1 ]) 

rownames( wmat ) 〈一 colnames(wmat) <- sldv2 $ tla 

for (i in 1 ： dim(min200) [l])( 

wmat[min200 $ ida[ i] , min200 $ idb[ i] ] < - 1 

1 

wmat < — wmat/rowSums(wmat) 

# Calculate the spatial lag of democracy 

Democracy, spatial, lag < - as. vector (wmat % * % sldv2 $ democracy) 


除了在地图上标示出一阶民主空间滞后,将每个观测值对总体 ( Global ) 莫 
兰 I 统计量的贡献在地图上标示出来也是很有用的。这个量就叫做 LISA (局部 
空间相关指标)统计量。这里我们将所有的值标准化，然后将它们在地图中标示 
出来，如图 1. 12。局部莫兰统计量的计算来自于奥德和格蒂斯 (Qrd and Getis , 
1995), 安瑟林 ( Anselin ，1995) 以及格蒂斯和奥德 (Getis and Qrd ，1996) 的文章。 
该地图表明 :从其 邻国的民主发展水平来看，哪些国家的情况比较异常。 
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南非和西非就属于这种情况，印度也是。 



ZScores 


E3 0 . 1 


□ -2.7 


图 1.12 局部莫兰 I 统计最的 z 值 



注:用灰色等级指代邻国之间相似性。 


小结 


首先经过仔细考察数据并将数据视觉化以后，我们基于民主水平和财富 
(用人均 GDP 的对数来表示)之间关系的线性假设，得到 OLS 回归结果。根据 
从回归残差中得到的有力证据，我们发现 :残差 之间表现出空间聚集的关系，这 
违背了回归中认为个体观测值的误差项应当相互独立的假设。 OLS 估计基于 
个体相互独立的假定，因此，在分析收入和民主之间的关系时， OLS 将不会是一 
个可靠的模型。更重要的是，模型中假定对于这些独立观测值，民主仅仅受到 
收入的影响，而忽略了显而易见的地理聚集效应的特征。我们也展示了如何利 
用地图和简单的统计量来提供有关空间聚集程度及其特性的探索性信息。 

即便研究者对回归分析不感兴趣，也可以用社会科学数据发现空间模式。 
如果仅仅进行简单的均值检验或者用回归方法分析空间排列的数据，而不考虑 
空间相关关系，都将会带来错误的推论，从而导致错误地拒绝了已有的假设。 

通过地图展示相关联的数据，为我们提供了一种判断空间模式是否存在的 
探索性方法，而空间模式的存在，也会使统计推论变得更加复杂。下面我们将 
介绍如何估计包含空间滞后因变量的回归模型，这种方法有助于我们明确地将 
空间依赖关系纳入回归框架中。 



第 2 章 I 空间滞后因变量 


在本章中，我们将讨论如何将空间依赖性，也就是将包含“空间滞后”因变 
量的^明确地加入回归方程的右边。这种模型有很多不同的名称。安瑟林 
( Anselin ，1998) 将其称之为空间自回归 （spatial autoregressive ) 模型，但这个术 
语可能会引起一些混淆，因为自回归这个词在地理统计文献中表示另外一些完 
全不同的空间模型。为了简单起见，这里我们称之为空间滞后^模型，原因是 
该模型的主要特征是加人了作为协变量的空间滞后因变量。 

当我们确信每个个体；的 J 值受到其“周围值”的直接影响的时候，空间滞 
后: V 模型就很适用。这种影响大于和超过〗的其他协变量的影响。如果我们相 
信 J 并没有直接受到周围值的影响,而是因为某些在模型识别中忽略的空间聚 
集特征同时影响了个体 i 的 y 值及其周围值，这时就需要考虑一种空间相关误 
差的模型，我们之后会讨论到。在空间滞后3^模型下，因变量^必须被视为连 
续变量。本书将不讨论更复杂的二分因变量的例子。这是因为更复杂的情况 
可能无法得到闭合形式的解，同时迭代估计方法也超出了本书的范围（参见 
Ward &. Gleditsch , 2002)。 


空间潘后因变量的回归 


为了进一步讲解空间滞后: V 模型，我们回到前面世界范围内民主分布的例 
子。我们已经看到民主的分布展现出空间聚集的效应，也就是如果一个国家周 
围都是民主水平很高的国家，那么它自身的民主 POLITY 得分也会较高。尽管 
有一些民主聚集现象可能来自于人均 GDP 的空间聚集，并且它和民主之间也 



具有正向相关，但是我们仍然发现 :即便 是控制了国家的人均 GDP 水平之后， 
民主的空间聚集效应依旧没有完全消失。在民主对人均 GDP 回归模型中，由 
于假设误差 e ,相互独立，这样利用回归残差就可以检验空间依赖是否存在;也 
就是说根据台,= ( L — y )， 同时利用莫兰 I 相关系数以及识别出的矩阵 C 的 
连接形式^^在这里国家之间如果在200千米范围以内，就看作相互连接。在 
本例中，我们发现了残差间的强空间相关关系。残差的莫兰 I 统计量为 0. 40, 
相应的 Z 值近似于。这个结果远远大于零假设(即空间独立性)为真的情 
况下的值。换句话说，这表明国家民主发展水平及其地理上邻国之间的正向 
相关关系，远远大于我们所预期的、人均 GDP 的解释作用。这种结果是相当 
典型的，仅仅靠空间聚集的协变量，并不能完全去除研究中因变量的空间聚 
集效应。 

假设在控制了国家的人均 GDP 以后，民主的分布依然表现出空间聚集效 
应，我们就需要通过可能的方法将空间依赖性纳入回归模型。与时间上的序列 
聚集情况一样，我们可以将空间自相关看作是外在干扰或本质现象。空间依赖 
性将使得对人均 GDP & $及其标准误的估计出现错误，这是由于在相互关联 
的个体之间，误差不能被视为相互独立。原则上，在用人均 GDP 对民主进行估 
计的例子中，这些问题可以通过某些考虑到空间误差相关性的估计值来解决; 
也就是说，残差的变化并不能完全被人均 GDP 解释。这种方法通常被称为空 
间误差模型，我们下面将会谈到这种方法。 

然而，这里更大的关注点是什么影响了民主，而不仅仅是估计国家人均 
GDP 与其民主发展之间的相关作用。如果一个国家的民主水平看上去与其邻 
国的民主水平相关，这就为我们提供了有关民主本身分布的信息，同时还让 
我们有机会了解空间依赖关系对民主的促进和阻碍作用。正因为如此，一个 
更可能和有趣的方法是将空间相关看作民主的本质特征，而不是一种统计 
干扰。 

这里观测到的空间相关，表明观测值之间存在空间依赖，因此，国家 i 的民 
主值由于其周围国家的民主程度不同而存在很大差异。与其将国家 i 的民主 
看作仅仅受人均 GDP 的影响，不如设计一个模型，将民主视为其自身人均 GDP 
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和周围国家民主水平的函数，定 义为叫 • M ， 这里对于所有同〗相连接的国家 J ， 
表示连接性的向量叫.（比如，矩阵 W 中的行0中的值都必须为非零值。前面 
我们曾提到，在表示连接的矩阵 W 中行经过了标准化，使得每一行的值加总 
为1。 

这种推导表明空间滞后因变量的模型具有如下 形式： 

yi = iS) +^\OCi +pvUi • 3 / t [2. 1] 

这里，空间滞后 ( p ) 的参数如果为正值，表明国家应该有更高的民主值，如果它们 
周围的国家的民主平均得分也很高。 

这让我们容易把空间滞后^模型联想为类似的时间序列自回归模型，其中 
时间序列相关性的表示是通过在方程右边加入一个滞后的因变量来估计 
其他协变量（比如 A ) 对 y 的影响。在空间滞后 J 模型中，系数 I 不同于 
OLS 的回归系数，这是因为人均 GDP 对民主水平的估计作用大小控制了 3/的 
空间依赖关系，或者说国家 i 的民主水平的变化可以通过其他国家) 的 ^值 
来解释。因此，在估计 x 变化带来的影响时，我们还需要考虑到空间上的相互 
影响。 

表 2. 1和表 2. 2提供了考虑和不考虑^的空间滞后效应后2002年158个 
国家民主水平对人均 GDP 自然对数的 OLS 回归。在忽略空间滞后 y 的情况 
下，我们观察到 : OLS 结果中人均 GDP 有非常大的正系数，为 1. 68。相比而言， 
在空间滞后^模型中，人均 GDP 对数的系数为 0. 76,比原来值的一半还要小， 
不过按照传统的显著检验标准，它还是远远大于0。 


表 2_1 

没有空间滞后 OLS 



OLS 

A 

P 

SE ( 身） 

t Value 

截距 (Intercept) 

-9. 69 

2. 43 

一 3. 99 

人均 GDP 对数 (In GDP per capita) 

N= 158 

Log likelihood (df = 3) =— 513. 62 
F = 28. 77 (df 、= 1, df 2 = 156) 

L 68 

0.31 

5. 36 
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表 2. 2具有空间滞后的 OLS 




SE ⑻ 

t Value 

截距 （ Intercept) 

-4. 98 

2. 07 

— 2. 40 

人均 GDP 对数 (In GDP per capita) 

0.76 

0. 28 

2. 72 

P 

158 

Log likelihood (df = 4) = — 482. 48 

F = 58. 64 {df\=2 ， df2 = 155) 

0. 76 

0. 088 

8. 65 


估计得到的空间滞后^不仅是较大正值 (0. 76)，而且按照标准它是高度统 
计显著的。这支持了我们的推测，即一个国家的民主水平和它的地理邻国的民 
主水平之间存在共变关系。实质上，该模型 表示: 如果一个国家的邻国的平均 
民主水平处于最小可能值（比如 ，一 10)，与邻国平均民主水平为 0( 这接近于 
1945年以来 POLITY 的历史平均得分)的国家相比，该国家的预期民主水平将 
少 7. 6分。相反，如果一个国家的邻国平均民主得分为10,与一个邻国平均民 
主得分为0的国家相比，其预期的民主水平将髙 7. 6分。这些估计结果反映了 
我们前面提到的民主的聚集效应。尽管大多数民主国家更可能具有高的人均 
GDP， 我们也观察到:2002年，在一些民主聚集的地区，其人均 GDP 并不是很 
高，比如拉丁美洲，此外也有一些专制国家聚集区拥有较高的平均 GDP， 例如波 
斯湾各国。 

与表 2. 1中假设独立观测值的模型拟合度相比，表 2. 2中包括空间滞后 j 
的模型对数据的拟合要好得多。该模型比假设观测值彼此独立的模型具有更 
高的 F 统计值和对数似然值。反过来，这让我们更加相信空间滞后^在识别民 
主分布中起到了重要作用，也就是说，不仅仅是国家人均 GDP 在起作用。然 
而，探索模型本身并不能令人完全相信空间方法的适用性。空间方法的优越性 
并不是因为仅仅起到探索性的作用，而是因为它为观测值之间的关联和相互反 
馈作用建立了一种看似合理的形式。 

标准最小二乘法回归具有如下 形式： 


yi = xiP + Ei 
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如 果&被 分解为因变量的空间滞后项——它与因变量相关——和一个自变量 
的误差项= pcu, yi +6,，这就是空间滞后模型的 形式： 

yi = +pw ia yi +G. 

然而，如果换一种方法令 e , = Aw ,. 6 +6 ，得到： 

yi =雄 +Xwi. + 6 / 


这就是空间误差的形式。 

下面我们将介绍空间滞后因变量模型;空间误差模型将留到第 3 章[ 9 ] 
讨论。 

我们很容易将表 2. 2 中的空间滞后^模型对人均 GDP 的系数估计，与 
表 2. 1 直接比较，并得出表 2. 1 中人均 GDP 效应更大的结论。然而，这种解释 
并不正确。由于模型在方程 2. 1中加人了空间滞后之后变为一种自回归形式， 
因此 x 系数的作用反映了 a 对％ 的短期效应，而不是像不包含空间滞后^的 
OLS 回归中工系数的净效应。由于％的值将影响其他国家％的民主水平，同 
时，这些％反过来影响％，我们需要考虑到额外的效应，也就是％通过对其他 
国家民主水平的影响所导致的对％的短期影响。 

这种解释类似于时间序列模型中协变量^的系数月，此时方程的右边包括 
因变量的时间滞后变量 M - i ，如 下： 

y t = + 

在这个方程中，代表 a 对％的即时效应，但是反过来，它又会在下一个时间段 
上影响 ，同时 a 的长期效应也必须考虑净效应部分，该效应来自于自回归 
部分，或者说来自于滞后3^的估计参数的影响。％的长期效应为 p/(l — 多)。 
当必很大时①，长期效应 卢/(1_ 必)将会显著大于 沐 

沿用上面的类比，如果某一个国家 i 的人均 GDP 增加一个单位，这将对该 
国的民主水平产生直接影响 A 。然而，方程 2. 1的模型表明 ：由于 国家之间反馈 


①准确地说，应该是#接近于1的时候。——译者注 
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作用产生的空间动态性，国家；的民主水平将对其邻国的民主水平产生影响。 
因此， i 的民主增长将影响邻国 j 的民主水平。同时，反过来，邻国的邻国也将 
受到影响，并且影响将扩大到所有相互连接的国家。一般来说，所有国家都会 
拥有一些邻国，因此最终所有的国家都会受到影响。但是注意方程 2 . 1 中包含 
了系统^中所有国家的民主水平，因此如果连接；的其他国家的民主水平提高， 
i 的民主水平也会提高。假设在一种实验状况下，某观测值受到一个外生的冲 
击，这种影响将通过观测值之间的相互作用引发一系列调整，并通过在系统中 
的循环产生回荡效应，直到生成新的稳定均衡 （ Cressie ， 1993； Lin , Wu ， & 
Lee ， 2006)。 

除了关注空间滞后^模型中 A 的估计系数，考虑均衡效应也很重要。可惜 
的是，空间滞后 J 的长期效应并不能像在时间滞后: V 情况中那样用简单的形式 
表示出来。我们会在后文讨论如何描述和估计空间滞后 >模型中协变量的均 
衡效应。首先我们将讨论由于空间滞后3^在方程右边所带来的内生性问题，以 
及与之相关的最小二乘法步骤中模型估计一致性的问题。 

下面一节将利用矩阵代数讨论估计问题，以及为什么最大似然估计量 
(Maximum likelihood Estimator , MLE ) 适合用于估计空间滞后 3 ；模型。因为 
使用 MLE 本身并不需要了解本节中的所有内容，读者若对估计问题不感兴趣， 
可以跳过本节内容，直接进人下一节。 

估计空间滯后 j 模型 

在包含时间滞后项的时间序列模型中，如果回归模型的残差不存在序 
列相关，时间滞后项:^^并不影响 OLS 的估计结果。更准确地说，假设模型被 
正确识别，包含滞后因变量的 OLS 模型并不导致估计问题。尽管在滞后因变量 
的优劣问题上已经存在大量争议，但这种争论取决于数据产生过程中的其他特 
定假设是否也合理。这里可参考基尔和凯利 (Keele and Kelly ，2006) 的讨论。 
尽管在时间上早于 G ^在空间上的滞后却是同时存在的，并且来自于7自 
身。这种共时性 ( simultaneity ) 特征导致空间滞后: y 模型估计上的问题。为了 
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理解这一点，我们可以借助矩阵代数形式的空间滞后模型。根据安瑟林 
( Anselin , 1988) 的表示法，空间滞后 j 模型可以 写成： 

Y = pWy + X^+e 

e-N(0, a 2 I) 

这里 I 代表单位矩阵 UXn 矩阵中，对角线上为1，其他地方为0)，6〜 N (0, 
a 2 I ) 表示误差服从正态分布，并且方差一致，即误差与协方差矩阵的积为0。如 
果 /0 = 0,表明不存在空间依赖，将等式右边的第一项去掉后，我们就得到了标 
准的 OLS 回归模型。然而，如果^关0,由于共时性的存在， OLS 的估计将不会 
随着样本量的增加而收敛到它们的“真实”值。相反，在 OLS 形式中被忽略的反 
馈效应或依赖效应将增大，而不会随着样本量的增大而消失。实际上，这种效 
应明显依赖于样本量的大小和连接矩阵的具体形式。 

如果靠 OLS 来估计空间滞后^模型存在问题，那么有没有其他估计方法 
呢？空间滞后 > 模型可以通过两步工具变量估计法来估计，比如，用外生变量 
X 、 WX 和 W 2 X 作为空间滞后^的工具变量。在这里我们将不详细介绍如何用 
工具变量进行估计，而是关注如何在空间滞后3^模型中进行最大似然估计。在 
模型被正确识别的情况下，这可以得到一致的和渐进有效的估计值。尽管由于 
方程右边 Wy 的存在，使得空间滞后^的 OLS 估计存在共时性问题，但是最大 
似然估计保持了渐进的性质，并且估计的不一致 ( inconsistency ) 或者偏误 ( bias ) 
大小将随着实践中的具体情况发生变化。弗兰泽兹和海耶斯 （Franzese and 
Hayes , 2007) 利用蒙特卡罗模拟方法研究了不同估计值的性质，结果发现 :在某 
些情况下，包含空间滞后 J 的模型的 OLS 估计值仍然比最大似然估计具有更小 
的均方误 (Mean Squared Errors ). 在小样本情况下，这将很难影响到空间表 
达式。 

最大化空间滞后^模型的似然值是比较复杂的。为了说明这个问题，我们 
将空间滞后: y 模型写成如下形式： 


y ~ p W y + XlS= U~pW)y-Xj3 
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反过来，我们可以将估计量/? 写成： 

13 = (x'xn'a—pw )》 

当 p 未知的时候，要找出该模型的估计值将是一件困难的事情，这是因为对数 
似然函数包含了 ll — pWl 行列式。这个 p 的 n 阶多项式可以通过每一次迭代估 
算。然而，奥德 ( Od ，1975) 表示如果 W 存在特征值 ( W 1 ， …，叫）， 那么： 

n 

I 0)1 — ^)W| = JJ ico — 0)i ) 

t=l 

反过来，这也 表示： 

I I — /oW 1 = YJ (1 — paji ) 

i—1 

奥德表明 w 的站可以在模型剩余部分被估计之前就找到。 

回顾方差一致的情况下,经典线性回归模型中的对数似然函 数为： 

lnU /3, tr 2 ) = — N /21 n (2； r )- N /21 n (2 〆 ） 

— — — 酬2, 

相比之下，空间滞后模型的对数似然函 数为： 

lnLCjff, a 2 , p) = In 11 -^WI - N/ 21 n( 27 r) - ^ 211 x( 2 ^) 
- Cy - pW - XfiyCy - pW -^ nc / 

并假定 a ;, 在估计之前就已知，这样我们就可以通过最大化该函数，而很容易地 
得到空间滞后 J 模型的最大似然估计值。我们还需要确认系数不会导致爆炸 
性的反馈过程，因为这将导致协方差矩阵非正定。 

尽管当前存在其他算法，但我们在使用空间滞后^模型的最大似然法时仍 
然最常采用奥德的方法，该方法可以消除复杂计算中的一个主要部分。然而， 
在采取最大似然法时，基本假设却发生了变化。在 OLS 中，误差要求服从正态 
分布，但是不一定需要数据。而在空间模型的最大似然估计中，数据被假设服 
从正态分布。 
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空间性间隔^模型的最大似然 估计： 以民主研究为例 

在本节中，我们将列出民主的空间滞后3^模型的最大似然估计，同时将其 
与相同模型的 OLS 估计结果进行比较。 

首先执行这个命令的 R 编码为： 


sldv. fit 〈一 lagsarlm( democracy 〜 log(gdp. 2002/population), 
data= sldv, nb21istw(nblist), method = "eigen" ， quiet = FALSE) 
summary(sldv. fit) 

moran. test(resid( sldv. fit) ,nb21istw(nblist)) 


上述命令的结果见表 2. 3。正如我们所见，对人均 GDP 的系数估计(接近 
1. 0) 高于 OLS 估计结果 (0. 76) ，而空间滞后夕的 参数夕 （0. 56) 却比空间 滞后 : y 
模型的 OLS 估计更低。无论何种估计方法，我们的主要结论都是一致的，也就 
是: 包括空间滞后^项将显著提高模型对国家间民主变化的解释能力。 


表 2. 3空间滞后 J 模型的最大似然估计 



A 

P 

SE 0 ) 

z Value 

截距 (Intercept) 

一 6. 20 

2. 08 

一 2. 98 

人均 GDP 对数 （In GDP per capita) 

0. 99 

0. 28 

3. 59 

A 

P 

158 

Log likelihood {df = 4) =— 491.10 

0. 56 

0. 08 

7. 43 


如果我们相信最大似然估计 MLE 相比于 OLS 更适用于估计空间滞后^ 
模型，那么我们可以推断 : OLS 估计低估了人均 GDP 的系数，且高估了空间滞 
后项的系数。但这种推测并不可以检验，因为我们并不知道“真实”的参数是什 
么，以及我们的模型和真实的情况有多接近，甚至不确定是否存在“真实”参 
数值。 
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针对残差自相关的拉格朗日乘子检验，更常用于检验空间模型中的残差。 
在本例中该检验得到的值为 2. 1，相应的概率为 0. 147,也就是明确拒绝了剩余 
残差间的一阶自相关的情况。除此之外，衡量残差的空间聚集程度的莫兰 I 估 
计值得到了同样的结果,鞍点修正法结果也是如此。莫兰估计得到的标准分为 
一 0. 46,这表示基于同样的连接矩阵 W ， 我们拒绝了残差之间存在简单空间相 
关。如果我们对空间滞后^模型的 OLS 残差的空间模式进行检验，我们 发现: 
大量证据表明残差之间仍然表现出很强的空间聚集效应，这时莫兰 I 为一 0. 17, 
相应的标准分为一 3. 21;鞍点估计结果也基本一致。负的莫兰 I 表明残差之间 
的排斥作用，这也支持我们的推测，即 OLS 过高估计了空间滞后: y 的作用，同时 
在对人均 GDP 效应的估计中过度矫正了空间依赖关系。我们强调应当谨慎使 
用残差的自相关检验，因为它们依赖于连接矩阵，而该矩阵本身在很多情况下 
都受到各种可能的识别方法的影响。我们在后文中还会讨论这一点。 

空间滞后: y 模型的均衡效应 

基于空间滞后^模型的最大似然估计，我们来考察人均 GDP 对民主影响 
的均衡效应。这需要我们考虑到自变量中一个国家 i 发生变化时，其他国家受 
到的影响。这将通过连接矩阵影响到其他国家的一系列变化，并最终通过空间 
滞后^项影响％。 

请 记住: 空间滞后回归模型可以被写成以下的矩阵 形式： 

y = X^3+pW^+6 

将所有和因变量^有关的项移到左边，我们 得到： 

(I —pW) 尸 邳 +e 

求解关于 y 的方程，再求期望值，我们可以发现，在这个均衡中 J 的期望 值为： 

E( y ) = (i— P wr l 邱 

很明显，只有当广0的时候， EG ) 才可能缩减为邱。为了确定 y 的期望 
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值或者: r 的均衡效应，我们必须考虑到空间乘子 ( i —^ wr 1 。 这个乘子告 诉:我 
们的变化多少会“扩散 (spill over )” 到其他国家并反过来通过^的空间滞 
后量影响到％。这和列昂杰夫 ( Leontief ，1986) 在投人产出分析中应用的逆矩 
阵 ( inverse ) 方法相似，它用来估计一个部门的需求变化如何影响多个部门体系 
的总体产量。 

因此，为了确定 x , 中某个观测值的一个单位变化所带来的均衡效应，我们 
需要乘上向量 Ar ⑴，而其他单位；的值都通过 ( I — pWrV 控制为常数。由于 
每个国家和其他国家之间的连接程度不同，并且高阶连接程度也不同，因此对 
一定 A 变化产生的影响将根据特定国家的改变而改变。假设我们有两个不相 
连的区域，彼此之间不存在桥梁连接，那么区域1的改变将影响到区域1中其他 
国家的改变，但是这些改变对区域2中的国家将没有影响。 

描述均衡效应变化的一个有用方法，是考虑所有国家发生一定变化时产生 
的影响，并且考察每个具体国家估计值的分布。在这个例子中，我们得到的均 
衡效应均值为 1. 09,它大约比表 2. 3中 g 系数估计值 0 . 99所表示的人均 GDP 
对数的短期效应高10%。在个体上具体国家的均衡效应从低的 1. 03( 蒙古)到 
高的 1. 24( 巴布亚新几内亚），后者比人均 GDP 的短期效应高25%。很明显，我 
们不应该在还没有考虑到空间乘子以及空间个体之间的变动时就对空间滞后3^ 
模型中的协变量的作用进行推断。图 2. 1展示了估计效应的柱状图。 

考察全向量 ( I - pWr ^ ArCO , 将有助于我们理解一个国家的人均 GDP 如 
何影响其他国家的民主预期值。比如以俄罗斯为例。表 2. 4列出了基于俄罗斯 
得到的10个 （ I - pW 广 1 的最高值，表 2. 3列出了该空间滞后 y 模型的估 
计值，连接矩阵用 W 表示。如我们所见，俄罗斯的潜在均衡作用为 1. 09,这与 
模型中潜在均衡影响的中位数接近。其他国家的值 表明: 俄罗斯的改变将会对 
其亚欧邻国产生影响。为了弄清这些估计值在实际中表示的含义，我们可以重 
新回忆一下人均 GDP 对数的估计效应的系数。俄罗斯当前 GDP 每变化10% 
(即2279美元），将仅仅使其民主预测值的 POLITY 得分增加 0. 1分。在和 
俄罗斯发生相同的人均 GDP 变化情况下，即便是在该变化所产生的均衡效应 
最大的国家，其民主预测值也仅仅在此估计值基础上增加 0. 02。这进一步强化 
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了我们的 结论: 即便某个国家的人均 GDP 发生很大差异，但根据我们的模型， 
这并不会使世界范围内的其他国家的民主预期水平产生很大的改变；同时，当 
空间滞后3^模型考虑了相连国家之间民主水平的相互影响之后，人均 GDP 对 
数的影响将远远小于把各个观测值看作相互独立时的 OLS 结果。 



图 2.1 人均 GDP 自然对数均衡效应的直方图 


表 2. 4俄罗斯等10个最高人均 GDP 得分国家的均衡作用 


国家 

作用 

国家 

作用 

俄罗斯 

1. 09 

爱沙尼亚 

0.21 

朝鲜 

0. 24 

挪威 

0. 20 

日本 

0. 24 

立陶宛 


蒙古 

0. 24 

拉脱维亚 

0. 12 

芬兰 

0. 22 

亚美尼亚 

0. 18 


根据上文的空间滞后^变量估计值，我们利用下面的编码建构一个简化 
实验： 


^ Code to calculate equilibrium effect of changes in GDP per capita 
并 Create vector to store the estimate for each state 
ee. est < - rep(NA, dim( sldv) [1]) 

# Assign the country name labels 
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names (ee. est) <C - sldv $ tla 

# Create a null vector to use in loop 
svec < - rep{0, dim(sldv) [1]) 

# Create a N x N identity matrix 

eye < - matrix(0, nrow= dim(sldv)[l] , ncol = dim(slcfv) [l]) 
diag(eye) 1 

# Loop over 1 : n states and store effect of change in 
井 each state i in ee. est[i] 

for(i in l ； length(ee, est)) { 
cvec 〈一 svec 
cvec[i] <一 1 

res<- solve (eye - 0.56315 * wmat) % * % cvec * 0.99877 
ee. est[i ]〈- res[i] 

1 

# Russia example of impact on other states (observation 120) 
cvec <C - rep(0, dim(sldv)[1]) 

cvec[l20] - 1 

# Store estimates for impact of change in Russia in rus. est 
eye < - matrix(0, nrow = dim(sldv) [ 1 ], ncol = dim(sldv) [l]) 
diag(eye) <_ 1 

rus. est < - solve (eye - 0.56315 * wmat) % * % cvec * 0. 99877 

# Find ten highest values of rus. est vector 
rus. est < - round(rus. est, 3) 

rus. est < - data, frame(sldv $ tla, rus. est) 
rus.est[rev(order(rus. est $ rus. est)),][1 ： 10,] 


前面 OLS 模型的结果表明 :人均 GDP 对民主预期水平的影响是相对有限 
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的。表 2. 3 中空间滞后^模型的最大似然估计结果同样表明人均 GDP 的即刻 
影响相对较小。当我们考察人均 GDP 变化的长期均衡效应时，尽管该效应略 
微大但仍然有限。表 2. 3中的系数意味着一个国家的预期民主水平和其邻国之 
间存在什么样的关系呢？图 2. 2显示出模型中地理上预期的共变关系。在该图 
中，我们画出了因变量(民主， 30 的期望值和其邻国之间民主水平（空间滞后变 
量乂和自变量人均 GDP 的自然对数)的函数关系。该等高线图明确表明 :人均 
GDP 的作用很小，但是空间组成对国家的预期民主水平具有很大的作用。 



模型 表明: 控制了 GDP 水平后，一国的民主期望水平出现了很大的差异。 
如果一个国家的人均 GDP 取中位数，其邻国全部为专制国家(比如 Y 10) ， 
其期望民主得分约为 一4; 然而如果它的所有邻国为民主国家（比如 Y = 10)， 
那么它的期望民主水平将接近7。在这种情况下，尽管人均 GDP 在解释民主差 
异上的作用非常有限，但是国家的民主水平与其邻国之间却具有非常紧密的 
关系。 

针对该结果的另外一种思路是，如果民主的改变来自于没有包含在模型系 



空间回归模型 


统部分中的其他特征(比如某个国家〖发生的震动)以及随之产生的对其他国家 
J 的预测民主水平(在模型中表示为 f ,) 的短期影响，那么会出现什么结果呢? 
基于估计出的空间模型，这将对其他国家产生什么影响？很明显，这不仅依赖 
于豸，而且还和建构空间滞后性的连接矩阵 W 的结构有关。 

基于上面的空间滞后^估计，我们利用下面的编码来考察中国一个单位的 
3^变化对系统中其他国家所产生的 影响： 


# Impact of change in $ y $ to 10 in China 

# China is observation 32 
cvec <C _ rep(0, dim( sldv) [1]) 
cvec[32] <-10 

井 Store estimates of change in China in chn. est 
chn. est 〈- c(cbind (0, 0, wmat% * % cvec) % * % 

c(summary(sldv. fit) $ Coef[, 1] ， summary(sldv. fit) $ rho)) 
chn. est < - round (chn. est, 3) 

# Find all states where non - zero impact 
chn. est < - data, frame(sldv $ tla, chn. est) 

chn. est < — chn. est[rev(order(chn. est $ chn. est)) ， ] 
chn. est[chn. est $ chn. est>0 ， ] 


表 2.5 如果令中国的 PQUTY 得分为 10, 预测民主 f 的作用 


国家 ( 或地区） 

作用 

国家 ( 或地区） 

作用 

国家 ( 或地区） 

作用 

中国台湾地区 

1. 88 

老挝 

1. 13 

塔吉克斯坦 

0. 80 

朝鲜 

1.88 

吉尔吉斯斯坦 

1. 13 

印度 

0. 80 

蒙古 

1.88 

孟加拉国 

1. 13 

越南 

0. 80 

尼泊尔 

1. 41 

乌兹别克斯坦 

0, 94 

阿富汗 

0. 80 

不丹 

1. 41 

泰国 

0. 94 

哈萨克斯坦 

0. 70 

巴基斯坦 

1.13 

缅甸 

0. 94 

俄罗斯 

0. 28 
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意大利投票率的空间依赖关系 

锡恩 ( Shin ，2001) 以及锡恩和阿格纽 (Shin and Agnew ， 2002， 2007 a ，2007 b ) 
研究了意大利在过去的几十年中其政治活动的地理分布，并且发现在投票率和选 
举结果之间存在重要的空间动态关系。我们利用他们的数据来解释一种简单的 
观点，即投票率的空间变化可以通过意大利财富与收入的地理分布来解释。数据 
来自于意大利2001年国家选举和各省在1997年的人均 GDP 。 这些数据包括选举 
中所有的477个学院 ( Collegi ) ，或者叫单一席位选区(后面将用 SMCte 来表示)。 

主要变量的地图 

与空间回归分析中的第一步一样，这里我们先画出了选举投票率和人均 
GDP 的地理分布关系(见图 2. 3和图 2. 4)。 



(%) 

90 

86 

82 

78 

59 


图 2.3 按学院 ( Collegio ) 划分的意大利选举投票率 
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投票率最高的是北部，尤其是北部最远的米兰 （ Milan ) 附近以及艾米利 


亚一罗马涅 ( Emilia - Romagna ) 和托斯卡纳 （ Tuscany ) 。罗马 ( Rome ) 和威尼斯 
( Venice ) 的投票率也很高。例 如:在 摩德纳 ( Modena ) ，投票率为90%。相反，在 
西西里 ( Sicily ) 投票率就停留在百分之十几；即便是在那不勒斯 ( Naples ) 市郊， 
选举投票率也仅仅约为60%。从人均 GDP 来看，意大利最富裕的地区是伦巴 
底 ( Lombardy )。 北部最富裕选区的收入大约是南部最穷选区收入的 1. 5倍。 
这组探索性地图明显表现出了投票率和人均 GDP 的聚集效应。 



图 2. 4意大利人均 GDP ， 1997年数据 


计算蠤兰 I 统计置 

在本节中，我们将利用莫兰 I 统计量这种更正规的方式来测算投票率和人 
均 GDP 的空间聚集效应。在测量意大利空间连接的第一步，我们先选取50千米 



作为最近的邻近距离。通过计算各个区的图形中心，由此判断该区是否和其他 
区域的中心在50千米范围之内。总的看来，有两个米兰区域和54个其他区域 
相连: 十区和六区。另外存在八个区仅仅和另外一个单一区相连，但这主要是 
边缘效应：比如特伦提诺阿托 ( Trentino-Alto Adige ) ，就位于阿尔卑斯山勃伦那 
( Brermer ) 山口和奥地利边境上。然而总体来说，各选区平均和其他17个相隔 
50千米以内的区相连。 

对临近区域一览表的概括分析可以通过 R 很容易地得到。作为例子，我们 
用如下编码生成这些 连接： 


tr < - readShapePoly( "turnout", 

IDvar = ” FID_1 IT ， proj4string = CRS( ” + proj = robin + Ion 0 = 0")) 
dnn50km < - <±iearneigh( coordinates (tr), 0, 50000) 
summarize (dnnSOkm) 


这里有两种莫兰计算方法，一种是基于随机假设，另外一种是基于正态假 
设。不管我们是基于何种假设，莫兰 I 统计量都表明数据中存在很强的空间关 
系。在这两种检验中，我们发现人均 GDP 的莫兰 I 为 0. 86;类似的，投票率的相 
关上也具有很高的取值，即 0. 79( 两者都是）。所有这些值都是异常的，也就是 
表明人均 GDP 和投票率之间都存在很强的空间关联模式。 
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投票率和人均 GDP 之间明显可能存在相关关系，但是投票率的空间聚集 
关系可以完全被 GDP 的地理差异解释吗？下面考察了投票率和人均 GDP 的简 
单函数模型。首先我们考查标准的最小二乘估计，结果在表 2. 6中列出。标准 
结果表 明:在 意大利，收入是投票行为的一个很强预测指标，对数人均 GDP — 
个单位的变化(每百万里拉)将导致14%的投票率变化。然而，我们得到回归残 
差空间模式的莫兰值为 0. 47,这表明还存在没有被协变量解释掉的空间模式。 





空间回归棋型 


表 2. 6意大利投票率对人均 GDP 对数的 OLS 回归 (1997) 




P 

SE(j§) 

t Value 

截距 


35. 30 

2.21 

15. 96 

人均 GDP 对数 

N = 477 

Log likelihood {df = 3) 

F = 434. 4W/i_ = 1， rf/2„2 

1387. 57 

- 475) 

13. 46 

0. 65 

20. 84 


然后我们用下面的代码，考察空间滞后 J 回归 模型: 


shin 〈 - read. csv("italyturnout. csv” ， sep = ” ，”， header = T) 
sldv. fit < - lagsarlm( turnout 〜 log(gdpcap), data= shin, 
nb21istw(dnn50km), method = "eigen” ， quiet = FALSE) 

summary(sldv. fit) 


表 2. 7 列出了计算结果。人均 GDP 对投票率的作用没有上面的 OLS 结果 
那么“强”，但是更可信。它表明收人的作用减小,但仍然是一个很强的作用。 
然而，空间滞后变量的作用相当显著。 


表 2.7 意大利投票率对人均 GDP 对数的空间滞后回归 (1997) 



A 

p 

SE0) 

z Value 

截距 

4. 70 

1. 66 

2. 80 

人均 GDP 对数 

1.77 

0. 48 

3.66 

A 

P 

N- 477 

Log likelihood idf = 3) ——1193 

0. 87 

0. 02 

36.7 


均衡分析 


根据上面的方法。可以很容易地算出477个选区中每一个的均衡值，也就 
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是模型的预期值。这里我们并没有将它们列出来，而是用一个简单的实验方 
式 :假设 意大利最穷区域雷焦卡拉布里亚-斯巴里 (Reggio Calabria - Sbarre ) 的人 
均 GDP 翻倍，这样我们计算出这一“情景”下的预期值和模型中观测数据的预 
期值的差异。这个差异对大部分选区来说都是不存在的，但是对其附近的15个 
选区来说，这种单一选区人均 GDP 的变化将导致期望投票率发生1%或者更大 
的改变。与预期一样，最大的改变是在相邻的选区之间。图 2. 5表示了意大利 
投票率发生变化后的分布。 



图 2. 5由于南部意大利单一穷困区(雷焦卡拉布里亚一斯巴里) 
人均 GDP 翻倍而带来的预期投票率增长 


下面的编码表示如何基于事先得到的空间滞后3；值，构造针对雷焦卡拉布 
里亚-斯巴里 (432 个观测值)的实验(简略形 式）： 





空间回归樓型 


并 Extract estimated rho 
rho < - coef(sldv. fit)[3] 

井 Extract estimated beta 
beta < - coef(sldv. fit)[l ： 2] 

# Create a X matrix 

X<- cbind( 1, log( shin $ gdpcap)) 

# Create an alternative X matrix, changing value for 
并 Reggio Calabria - Sbarre (obs 432) 

Xs <- X 

Xs[432]<- log(35) 

井 Create an identity matrix 
工 < -diag(length(shin $ gdpcap)) 

井 wmat is the weights matrix 

wmat < - nb2mat( dnn50km, style = n W n ) 

# Find equilibrium effect by looking at 
the difference in e3q>ected value for the 

井 two x matrices 

Ey < — solve(I - rho * wmat) % * % (X% * % beta) 

EyS < - solve(I - rho* wmat) % * % (Xs % * % beta) 
ctif < - Eys - Ey 

将不同权重矩眸引入空间埽后因变量模型中 


我们以2004年美国总统选举为例，说明空间权重矩阵的作用 [ 1G ] 。从该数 
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据中，可以很容易提取岀 XML 表，并且转变成 csv 文档。为了简化研究问题， 
我们将不考虑阿拉斯加和夏威夷，因为它们和其他所有的州都隔得足够远，所 
以并不会影响我们对区域数据的分析。我们感兴趣的主要变量，是小布什和克 
里的总选票在48个相连州与哥伦比亚地区中的份额。考虑到这是作为练习的 
一个例子，我们忽略每个州的提名投票数。然后构造一个小布什对克里的投票 
比，将此作为因变量。 



为了找出空间类型数据中的自相关程度，我们构造出这49个政治和地理单 
位之间空间连接性的几种测量。第一种测量是相连州之间的简单测量。在这种 
情况下，华盛顿州与爱达荷州和俄勒冈州相邻，因为它们接壤。科罗拉多州与新 
墨西哥州、亚利桑那州、犹他州、怀俄明州、内布拉斯加州、堪萨斯州以及俄克拉荷 
马州接壤。在分布的另一端，缅因州只与一个州接壤。图 2. 6描述了这些情况。 
绘制这个地图的编码样本 如下： 


library(maptools) ； library(network) 
library(spdep) ； library(sp) ； library(rgdal) 
setwd( 

# read in 2004 presidential votes 

presvote < - read, table("2004presvote. csv" ， sep ="，’’，head = T) 

# read in shape files for 48 US States plus District of Columbia 



空间回归模型 


# will create a MAP OBJECT 

# use equal area projection(Robinson) 

usa. shp <- read, shape("48_states_ ) 

usaall 〈一 merge (usa. shp $ att. data, presvote, 
by.x = ” STATE_NAME' by. y = n State' 
sort = F) 


# Create a distance matrix from original polygon shape file 
tr<- readShapePoly( ,, 48_states, shp ” ， 

IDvar = n Object ID" , pro j4string = CRS(" + pro j + robin + Ion 0 = 0”)) 
centroids <- coordinates (tr) 


# Create polygons in a spatial object 
us48polys < - Map2poly(usa. shp, 

region, id = as, character (usa. shp $ att, data $ STATE 一 NAME)) 

Create neighbors, list, and matrix objects from polygon 
centroids 

us48. nb <C - poly2nb( us48polys, 

row. names - as. character (usa. shp $ att, data$ STATE_NAME)) 
us48. listw <C - nb21istw(us48. nb, style = "B") 
us48.mat<C- (nb2mat(\is48. nb, style ="B")) 

# plot the network among the centroids 

colnames(us48. mat ) 〈一 rownames (us48. mat ) 〈 — usa. shp $ att. dat 



usa < - network(us48. mat, directed = F) 
set. seed(123) 
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# plot network first ； then add state boundaries 

plot, network(usal, displayisolates = T, displaylabels = F, 

boxed, labels = F, coord = centroids, label, col = "gray20 n , 
usearrows = F, edge, col = rep( f ’gray60” ， 190), 
vertex, col = n gray30" , edge, lty = 1) 
plot(us48polys, bty = "n ,f , border = "slategray3 lf , forcefill = TRUE, 
xaxt = n n M , yaxt = fr n rT , lwd= . 000000000125, las = 1, 
ylab= f,n , xlab= nH , add = T) 

下面我们用地图画出 2004 年总统选举中，小布什和克里在每个州的得票比。 
如图 2. 7 所示， 2004 年总统大选中各州之间的投票行为表现出很强的地理关系。 

library(RColorBrewer) 

# now plot the Bush ： Kerry vote ratio 
bk 〈一 usaall $ Bush/usaall $ Kerry 

井 set up five categories and assign colors 

breaks 〈一 round(quantile(bk), seq(0, 1, 1/5), na. rm = TRUE), 1) 
cols <C - brewer, pal(length(breaks), ’’Greys") 

井 use f indlnterval to color states by bk variable 
plot(us48polys, bty= "n" ， border = ,f slategray3 n , forcefill - TRUE, 
xaxt="n", ^axt="n" ， lwd= . 000000000125, las = 1, ylab= nn , xlab- ,M, ) 
plot(us48polys, bty="n"，col = cols[findlnterval(hk, breaks, 
all. inside = T) ] ， forcefill = T，add = T) 

legend(x = c (一 125，— 115 ), y = c ( 27, 32 ) ， legend 二 leglabs 
(breaks), 

fill = cols, bty = "n") 
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f?l 1— 1.3 
_ 1. 3— 1.5 
■I 大于 1.5 

图 2. 7 2004年总统选举各州支持小布什对克里的投票比 


莫兰 Z 同样在数字上表明了这种空间关系(见表 2 . 8) 。 


表 2. 8 2004年总统选举小布什一克里总投票数的自相关 


数 量 

标准分 

加权模式 

莫兰 (Moran’s) I 

0. 39 

4.7 

边境接壤的州 

0. 49 

5.7 

最近的 4 个邻州 

0. 30 

7.0 

最近的 12 个邻州 

吉尔里 (GearyW 

0. 65 

-2.7 

边境接壤的州 

0. 65 

一 3. 6 

最近的 4 个邻州 

0. 69 

一 5. 1 

最近的 12 个邻州 


各州的平均生产总值(类似于 GDP ) 来自于经济分析局的测量，该局是美国 
商务部的一部分。最新的可用数据来自于 http ；// www . bea . gov / bea / newsre - 
larchive /2006/ gspl 006. xls ， 这也包括 1997 年到2004年各州生产总值的增长 
率。这些数据描绘了在2004年选举之前的7年中，各州经济的变化。我们用该 
数据作为协变量来解释2004年总统选举的投票情况。 

我们建立了两个基本的空间连接矩阵，一个是根据是否接壤，另外一个是 
选择最近的四个邻州。对于每一个接壤编码，我们都估计了一个空间滞后变量 
的回归模型。结果见表 2. 9。 
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表 2. 9 2004年美国总统竞选中各州小布什对克里的投票率 
对 GDP 增长率{19!>7 — 2004) 的空间滞后回归 


No. 


SE0) 

z Value 

是否与皇后地区 (Queen ) 接壤 




截距 

0. 86 

0.21 

4. 00 

GDP 增长率 

_0. 05 

0. 06 

0. 85 

A 

9 

N= 49 

Log likelihood {df = 3) =—25. 63 

4 个最接近的邻近州 

0,09 

0.02 

20.4 

截距 

0. 63 

0. 23 

2, 72 

GDP 增长率 

一 0, 06 

0,05 

1. 04 

A 

P 

N = 49 

Log likelihood (df = 3) =— 25.19 

0. 60 

0.12 

18.4 


经验研究结果表明 ， GDP 增长率更高的州，在投票上更少支持小布什而更多支 
持克里。在接壤编码上，我们发现了很弱但正向的空间关系 (0. 09)，但在利用 
四个邻州作为空间加权编码的时候，小布什一克里投票比却表现出更强的正向 
相关关系 (0. 60)。这两种不同的估计方式不仅在标准回归结果表上出现不同 
的结果，而且更重要的是它们将导致均衡值出现很大差异。如图 2. 8所示，对于 
这两种不同的加权模式，尽管其均衡效应正向相关，但它们的分布却完全不同。 



均衡效应 


图 2. 8不同加权模式下空间滞后因变量的均衡效应的后验分布 





边境接壤方法得到的均衡效应的均值(一 o , 15) 比用四个邻近州作为估计得到 
的均值(一 0. 35) 更小。该例子说明的首要问 题是: 加权矩阵在空间分析中起到 
了重要的作用，即便加权矩阵中很小的波动，也会对经验结果产生显著的影响。 

空间滞后因变量与 OLS 中虚拟变量的比较 

社会科学家们经常意识到 :世界 各个地区之间存在巨大的异质性，因此回 
归模型中每个国家各自的协变量并不能很好地解释空间差异。解决空间异质 
性的通常做法，是将各个不同地区作为虚拟变量加人模型。这种虚拟变量可以 
完全拟合不同地理区域的截距，从而考虑各个分散区域中因变量： y 的固定均值 
差异。这是在当前应用研究中最常用的处理区域异质性的方法，社会科学中有 
很多模型都是这样将“区域”分类作为虚拟变量加入模型的。同时，这样的模型 
也变得越来越普遍，因为分析者们越来越多地注意到合并数据的 OLSCpooled 
OLS ) 估计可能没有考虑到各区域的重要差异。 

比如，李 ( Lee ，2005) 在一项民主和公共部门规模对收入不平等的影响的研 
究中，将非洲、亚洲和拉丁美洲作为区域虚拟变量拟合模型，并提出后两个区域 
相比于参照类(经济合作和发展组织)明显不同，并且这种不同不能通过模型右 
边国家方面的具体变量来解释。在民主研究中，布赫特 ( Burkhart ) 和刘易斯-贝 
克 ( Lewis - Beck ，1994) 将世界体系中不同的民主水平作为虚拟变量，以此处理 
模型中的异质性问题，从而将国家区分为世界经济的中心 ( Core )、 边睡 (Periph - 
ery ) 和半边陲 ( Semi - periphery ) 。 

在模型中加入区域虚拟变量的方法在社会科学中非常受欢迎，这也成为空 
间滞后 y 模型的一种替代 方法。 下面我们将区域虚拟变量加入模型中，作为原始 
OLS 模型的替代方法，然后讨论这种模型和空间滞后 J 模型的关系。表 2. 10列 
出了将拉丁美洲和加勒比海、欧洲、撒哈拉以南非洲地区、中东和北非、亚洲以及 
大洋洲作为虚拟变量的模型。诙模型忽略的区域,也就是参照类，为北美洲（即 
美国和加拿大)。不同区域的系数估计 表明: 在控制了人均 GDP 以后，某一地 
区的一个国家预测的民主水平相比于北美的差异。拉丁美洲和加勒比海地区、 
欧洲、大洋洲看上去和北美的平均民主水平之间不存在显著差异，但是撒哈拉 
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以南非洲地区和亚洲，尤其是中东，相比于北美，其平均民主水平要低很多。我 
们同时注意到 :这里 的人均 GDP 对数的估计系数要比将各个国家作为独立个 
体得到的 OLS 模型(也就是 1. 68) 低很多。事实上，该模型的人均 GDP 系数和 
上面空间滞后^模型中得到的均衡效应(也就是 1. 09) 非常接近。这也表明合 
并数据的 OLS 忽略了空间异质性，同时通过虚拟变量控制区域差异，起到了解 
决区域异质性的作用。此外这也说明之前人均 GDP 的作用被高估了。 


表 2 . 10 包含空间虚拟变置的模型估计 


No. 

A 

P 

SE(j9) 

t Value 

截距 

一 1_ 89 

5.06 

-0. 37 

人均 GDP 对数 

1. 15 

0. 34 

3. 39 

拉丁美洲和加勒比海地区 

0. 09 

3. 84 

0. 02 

欧洲 

-0. 41 

3. 74 

-0.11 

撒哈拉以南的非洲地区 

-4.71 

3.97 

-1. 19 

中东和北非 

-11. 77 

3. 85 

— 3. 05 

亚洲 

-5. 97 

3. 92 

— 1. 52 

大洋洲 

0. 90 

4. 72 

0. 19 

N= 158 




Log likelihood {df = 8) =-477. 52 




F = 18. 65 {dfi = 7 , dfz — 150) 





空间虚拟变量的方法适合替代空间滞后^模型吗？回答这个问题的一个 
可能的办法是考虑这两个模型的简约性 （ Parsimony )。 尽管包含虚拟变量的 
OLS 具有更高的对数似然比，但这增加了 6个新的参数，或者说比空间滞后^ 
模型多出了 5个参数。同时，区域虚拟变量模型本身并没有解释为什么会存在 
区域差异，它仅仅是基于观察到的区域差异拟合不同的截距。如果一个区域因 
为其人均 GDP 变化而导致其民主水平发生了改变，这也不会改变其他国家的 
预测值，因为区域差异被看作是固定的，并且国家之间也不会相互影响。相比 
之下，空间滞后^模型仅仅增加了一个参数，就可以从实质上解释与某一国家 
相连的国家的民主水平3^对这个国家民主水平的作用。如果不考虑简约性，而 
仅仅是为了提高拟合度，当然可以用区域虚拟变量拟合空间滞后^模型。但在 
这种情况下，模型仍然表现出残差的空间聚集效应，也就是得到正向且统计显 
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著的估计值 f = 0. 25。如果用空间虚拟变量拟合空间滞后 y 模型，那么分析者 
需要考虑的，是固定区域差异的相关假设问题，而不是空间滞后^表达式中所 
产生的内生性问题。在很多情况下，如果连接矩阵 W 和区域划分非常相似的 
话，我们将很难分别估计区域虚拟变量的参数和空间滞后^的参数，这与回归 
的共线性问题类似。进一步而言，区域虚拟变量的构造基于指定国家为分散无 
关联的或者特定名称的区域，而空间滞后^项的构造基于连接矩阵 W , 每个国 
家都有特定的连接。与分散无关联的识别方法相比，基于国家之间连接的方法 
的优势在于它不会将地理上隔得很远的国家比如希腊和爱尔兰划为同一个群， 
也不会将跨越了几个共同的地理区域的国家，比如土耳其和俄罗斯，作为同一 
个区域处理。 

即使我们相信互斥的区域也可以用来构造观测值之间的连接，但区域虚拟 
变量方法并不总是空间滞后^模型的合适替代，而且它需要更多过度限制的假 
设。为了说明这个问题，假设一个回归中有々个不同虚拟变量认且满足^ = 

+... + b k D k + e 0 与连接列表或者连接矩阵不同的是，在连接表或者矩阵 
中， i 不作为其自身的邻国包含在内，而在这里，每个区域同时包括和它所有的 
邻国。但是如果每个区域内的样本数很大，我们可能得到 Wy 〜 & A +... + 
b k D “ 这表示虚拟变量回归可以重新写作 y = hD , +... + b k D k ^ Wy + e 。 这 
样，虚拟变量回归模型就变成空间滞后 J 模型的特例，这仅仅是假设/0= 1 而不 
是估计实际参数就是 l(Linet al .， 2006)。换句话讲，空间虚拟变量假设每个 
区域内的所有的观测值都是同质并且相互连接的，但是空间滞后3^模型却允许 
我们估计不同的相似程度。此外，空间滞后^模型可以方便地处理各种连接形 
式，而虚拟变量方法则假设群体之间互不相连。也就是说，群体内的每个分析 
单位相互关联，而群体之间没有 关联; 另外，分析单位也不能同时属于不同的 
群体。 



第 3 章 1 空间误差模型 


在第2章中，我们考察了空间滞后因变量模型，在该模型中因变量的“邻近” 
值对它本身具有直接影响。尽管这可能是处理空间依赖问题最常见并且是最 
有用的方法，但是，在连续因变量线性模型中，这并不是表示空间依赖关系的唯 
一方法。在本章中，我们将考察另一个替代概念,也就是说空间依赖关系来自 
于误差，而不是来自模型的系统部分。这种模型通常被称之为空间误差模型。 
我们同时介绍空间回归模型的一种重要扩展方法，也就是将空间误差模型扩展 
到度量学 ( metric ) 的距离概念，而不是仅仅停留在地理距离上。 
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尽管空间滞后变量模型将空间依赖看作是本质现象，也就是说^受到其他 
国家的值的影响，但是，空间误差模型却将空间相关关系看作一种干 
扰。这类似于统计学方法中经常将时间序列相关视为需要消除的问题，而且仅 
仅是一种估计问题。这种方法一般关注模型系统部分中被估自变量的参数，而 
忽略了数据产生过程中，数据相关性本身所反映出的意义。空间误差模型假设 
模型的误差是空间上相关的，而不是认为 M 对力 产生直接影响。这种空间相 
关性的建立可以通过很多种方法来识别。这里我们仅仅关注一种基于空间体 
系编码的简单方法，也就是空间权重的 方法; 其他重要的方法包括考察地理统 
计协方差结构，但是本书将不介绍这些方法。根据之前的定义,如果令 W 代表 
向量 W ， 也就是测量£和其他单位）关£的接近程度，我们可以将空间误差模型 
写成如下的 形式： 
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yi = 工召 + kcui . + o 

这里我们将总的误差分解为两部分——即 K 为空间不相关项，它满足正常回归 
假设中误差项空间上不相关的条件4为包含空间因素的误差项。参数 A 表示 
在连接向量中，相邻观测值的空间误差项 f 的相关程度。另外，我们还可以 
将空间误差模型按照第2章中定义的项，写作矩阵的 形式： 

y = Xj3~hAW$~h ( 

r 〜 N (( WI ) 

如果相连观测值；和7的误差之间没有空间相关存在，那么空间误差参数; I 将 
为0,同时模型将简化为标准线性回归模型，也就是个体观测值之间相互独立， 
这样我们就可以按照传统方法估计 OLS 模型。然而，如果空间误差参数 A # 0， 
那么我们可以判断相连观测值的误差存在空间依赖。这种结果可能仅仅是出 
于巧合，或者反映了模型系统成分的识别错误，尤其当被省略变量存在空间聚 
集的时候。社会科学家们通常希望发现正向空间相关关系。这意味着相似值 
之间存在 聚集; 也就是观测值 i 的误差的大小会随着其邻近观测值）的误差变 
化而系统性变化，这样；的更小/更大的误差就会向）的更小/更大@的误差靠 
拢。这种残差聚集效应违背了误差项相互独立的假设。 

误差项的空间相关将导致什么结果呢？如果我们按照误差项相互独立的 
假设来估计 OLS ， 又会导致什么结果呢？如果 A 乒0,即便忽略了空间相关关 
系 ， OLS 系数估计结果仍然是无偏的。然而，系数估计的标准误将会是错误的。 
在 OLS 对方差的估计中，假设观测值相互独立。如果这不正确的话,那么 ， OLS 
对方差 c ? 的估计将低估了实际的方差，这与时间序列相关情况下的误差估计 
类似。这种情况之所以发生，是因为对方差的估计忽视了相邻观测值误差项的 
相关。此外，估计系数也并不必然是我们想要得到的有效估计值，也就是不“接 
近”真实值。之后，我们将返回来讨论空间误差模型的估计，下面我们先介绍如 
何解释该模型以及它和空间滞后 y 模型的关系。 


①原书这里为更小，而译者认为 i 的误差与 j 的误差大小应该是对应的。 一 ~译者注 
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空间误差模型和空间滞后 J 模型表面上看起来很相似，因为它们都表明了 
观测值之间的空间依赖性。然而，实际上这两种模型识别方法的实质意义却是 
不同的。空间滞后 > 模型是一种联立模型 (simultaneous model ) ，观测值之间相 
互进行反馈的值影 响到力 的值，反过来影响到％的值，然后再影响到 M 。 
正如在第2章中所见，一个观测值£的自变量的不同取值，将通过相连的观测值 
而传播，而净影响来自于这些不同取值通过空间滞后^项，对其他相连观测值 
产生的影响。与之相反，在空间误差模型中，模型识别中的依赖关系仅仅来自 
于误差项。空间滞后^项的缺失表明〗的自变量的差异并不会影响到与 i 相连 
的其他观测值的结果。因此，在空间误差模型的识别中，观测值的相互联系仅 
仅是因为未测量到的因素，也就是因为某些未知因素在距离上相关。 


空间误差模型的最大似然估计 

在空间滞后^模型的例子中，方程右边代表空间滞后作用的系数 P 是明确 
表明我们研究兴趣所在的参数。在空间误差模型中， A 系数表明残差的相关，而 
不是明确的研究兴趣的协变量。如果我们仅仅是对估计: r 的及感兴趣，而完全 
忽略 A ， OLS 估计值将会是空间误差模型的无偏和一致性估计，这与空间滞后 y 
模型不同。然而，报告的标准误却是不正确的，同时估计系数也不一定是有效 
的。这种问题可以通过利用广义最小二乘估计来解决，这类似于在存在时间相 
关的情况下用广义最小二乘估计值，这样我们先估计序列相关，然后试图转换 
数据以清除序列相关，从而满足普通回归的假设。通常这可以通过对空间连接 
矩阵特征值的最大似然估计来解决。 

空间滞后误差模型的对数似然方 程为： 

lnL(/3, a, A) - In 11 - AW | - N/21n(2^) - N/2M ) 

— (y-XWy — X^-\-XWK0) f (iy — XWy — Xl3~\-XWK0)/2c/ 

如同空间滞后 y 模型的对数似然值一样，我们遇到如何计算行列式 
H-AWI 的对数的难题，这是一个难以估计的; z 阶多项式。然而，我们可以在此 
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依据奥德 ( Ord ，1975) 的结果将这个行列式写成连接矩阵 W 的特 征值站 的乘 
积 ： |I — AW | = g ( l —;^ )。由于特征值站可以在最优化之前决定，该步骤可 
以同其他参数的似然估计分开 ( Anselin ， 1988； Bivand , 2002)。这种估计可以 
通过常用的软件选项来执行，包括 R 中的 spdep . 


以民主和发展研究为例 


为了说明一个空间误差模型应用的实际例子，首先我们重新讨论第2章中 
关于民主和财富的例子。我们利用和第2章相同的数据，在变量的所有构造上 
面都参照前面的细节。表 3.1 展示了民主和收入例子中的三组估计。第3列的 
估计结果表明考虑到空间相关误差后的模型估计结果，而第1和第2列重复了 
第1章和第2章中 OLS 与空间滞后 y 模型的估计结果。 

估计空间误差的 R 编码非常简单 明了： 


井 data and variables as employed in chapter 2. 

sem. fit < - errorsarlm( democracy 〜 log(gdp. 2002/population), 

data= sldv, nb21istw(nblist), method = "eigen" ， quiet = FALSE) 
summary(sem. fit) 
logLik(sem. fit) 


如表 3.1 所示，空间误差模型的人均 GDP 对数的估计系数远远大于在空间 
滞后 y 模型中的结果，尽管还是没有不包含空间关系的 OLS 模型的结果大。直 
觉告诉我们 OLS 模型可能因为没有考虑到民主和人均 GDP 在相邻国家间的空 
间聚集作用，而高估了人均 GDP 的直接作用。这样估计结果也更不精确。同 
时，我们也可以将空间滞后项看作当观测值相互独立的情况下， OLS 模型中被忽 
略的变量。相比之下，空间误差模型纠正了人均 GDP 和民主的正向空间相关，而 
且这种纠正减小了 GDP 影响的估计系数。然而，空间误差估计假设模型中观测值 
的空间依赖仅仅来自于误差，或者说是模型系统部分没有考虑到的因素。 



高级圉归分析 


表 3.1 民主和人均 GDP 对数 


变量 

OLS 


SLDV 



SEM 


冷 SE0) z Value 

^ SE(^) z 

Value 

A 

SE(^) ^ 

Value 

截距 

-9. 69 2. 43 - 

-3. 99 —6. 20 2. 08 — 

-2, 98 - 

-7.49 

3. 07 - 

-2.44 

人均 GDP 对数 

1.68 0.31 

5.36 

L 00 0. 28 

3.59 

1.39 

0. 38 

3. 66 

A 

P 

A 

A 



0.56 0. 08 

7. 43 

0. 58 

0. 08 

7. 60 

N 

158 


158 



158 


自由度 w/) 

1 


2 



2 


对数似然值 
(Log likelihood) 

一 513. 62 


—491. 10 


一 

- 491, 53 



注 : SEM 表示空间误差 模型 ; SLDV 表示空间滞后因变量。 


相反，在空间滞后: V 模型中 ，一 国人均 GDP 增长带来的净效应 ，一 部分会 
通过反馈效应实现，因为；的即时效应对其邻国 j 产生影响，然后通过空间滞后 
项又影响 i ， 这带来的民主分数的变化又会影响其他国家，并通过系统中的反馈 
直到产生某种均衡。因此，在空间滞后 > 模型中，人均 GDP 的估计系数看上去 
比空间相关误差模型更小，因为它反映的是即时效应，而不是模型中的长期净 
“均衡”效益。 

空间滞后 J 和空间误差的比较 

由于这里两个空间参数^和 A 远远大于它们的标准误，因此我们可以放心 
地得出结论，认为数据中存在很大的空间依赖性，并且认定假设观测值间保持 
独立的标准 OLS 回归结果是具有误导性的。但我们会问:究竟哪个模型更好， 
空间滞后^模型还是空间相关误差模型呢？从统计上很难区分出空间滞后^ 
模型和空间误差模型的好坏。这两个模型并不相互嵌套，因此也不可能将一个 
模型看作另一个的子集，也就是说，我们不能通过在模型中加入更多限制条件 
来进行假设检验。尽管可以通过正式的检验方法来比较非嵌套的模型 [ u ] ，然 
而，通常这些结论都是不确定的，而且很难给出一个模型优于另一个的有力证 
据。在这个例子中，我们可以看到两个模型的对数似然值非常相似，空间滞后 : y 
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模型的对数似然值仅略小于空间相关误差模型。由于两个模型的参数个数相 
同，我们也不能说一个模型比另外一个更简约，因此，我们的经验并不能告诉我 
们这两个模型哪个对数据拟合得更好。一种方法是通过交叉验证 (cross-valida¬ 
tion) 或者是样本外的预测检验 (out-of-sample prediction test) ，但是这些方法超 
出了本书讨论的范围。 

更重要的是，究竟是空间滞后^模型还是空间误差模型更合适，实际上是 
先于理论的问题，这应当通过具体的研究问题来考虑。如果我们期望看到—— 
或者感兴趣的是——反馈效应，那么空间滞后^模型应当是一个更合适的模 
型。在民主的例子中，合理的预期是一个国家的民主水平会受到其他国家民主 
程度的影响(参见例如 Gleditsch，2002a； Gleditsch Ward，2007)。 相反，如 
果认为模型中误差的空间相关来自于系统成分中其他被忽略的特征，而国家民 
主水平之间没有扩散效应，这种说法就显得更不可信。因此，在这个例子中，我 
们相 信:空 间滞后3^模型比空间误差模型更恰当。 

更一般的原因是 :社会 科学对空间误差模型更没有兴趣。在我们看来，只 
有当研究者们相信误差项可以存在某些空间模式，但他们却不愿意或者是无法 
对误差的来源提供假设的时候，空间误差模型才更适用。这样做的原因在于， 
社会科学中的大多数模型在识别个体观测值特征的时候都很难抓住所有的空 
间聚集作用。因此，空间滞后因变量的识别问题仍然有很多工作需要做。但是 
如果在某个领域大部分的重要机制都已经明确并且在模型的系统部分完全识 
别出来，而误差项中仍然存在相关的话，这时用空间误差模型来纠正残差干扰 
就非常有用。总的说来，由于社会科学模型通常很少关注数据之间的依赖关 
系，空间误差模型可以大大改进当前的模型。 


估计成对贸易往来中的空间性误差 


为了找出空间误差模型更适用的一个例子，我们考虑它在成对贸易往来研 
究中的一项应用。成对 (Dyad) 表示两个个体组成的一对，结果变量可以是某些 
个体特征或者个体间互动的测量，在我们的例子中表示两个国家 i 和）之间的 
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贸易量。在一些情况下，我们可能希望区分；和）互动的方向，比如表示 i 
对）的作用 D 相反，没有方向的互动可以用下标定义为 i -)。 一 个包含 n 个个 
体的系统将产生 nX(n — 1) 个有方向的组对，当我们不区分往来或者互动方向 
时，将有 《 X(n — 1)/2 个无方向的组对。除了我们例子中的贸易以外，成对观测 
值在国际关系中非常普遍，比如当我们对估计某些特征如何影响到一个特殊事 
件或者行为诸如两个国家 i 和> 之间的冲突发生的可能性感兴趣的时候。 

国际关系中成对分析的传统方法是将个体互动看作这一对或者这两个个 
体特征的函数，同时在考虑到相关解释因素之后将两个个体视为互相独立。而 
空间误差模型则有利于我们处理成对观测值之间可能存在的依赖关系[ 12 ]。 

国际贸易的黄金标准模型一直以来都没有发生过大的 变动: 这类似于牛顿 
的万有引力模型。贸易被看作交易国家经济规模的函数，但是和国家之间的 
“距离”成反比。当前的经验研究表明很多因素都可能影响国家 i 和 j 之间的贸 
易程度。经验研究中最常用的贸易模型也被称之为贸易的万有引力模型，它假 
定两个国家之间的贸易量 IV ,和它们的经济 ( GDR 和 GDP ,)、 人口（朽和 P ,) 
的地理距离 ( A ^) 乘积成比例 D 该模型一般在取对数后表示成相加的 形式： 

log(U = 

a ( 3 i \ n(GDPi ) j^lniGDPj ) +/? 3 ln ( P I ) +/? 4 ln ( P J ) +/^ ln ( D — j ) +( 

这里各种量的系数 ( A ，... ， A ) 应该为正值，而距离的系数(择）为负值。 
芬斯特拉，罗斯和马库森 （ Feenstra，Rose and Markusen ，2001) 以及罗斯 
( Rose , 2004) 在最近的研究中都提供了相应的例子。 

万有引力模型的核心并没有涉及政治内容，但是很多社会科学家都感兴趣 
的是，政治因素如何影响了贸易往来。比如波林斯 ( Pollins , 1989 a , 1989 b ) 认为 
政治关系可能会对贸易量产生强烈的影响，因为一个国家不太可能和与它政治 
关系不好的国家有很高的贸易量，或许因为商人们担心贸易受到政治因素的破 
坏，或许因为政府对敌对的国家的贸易采取相应的限制。莫罗，西沃森和塔瓦 
雷斯 ( Morrow ， Siverson，and Tabares , 1"8) 认为民主国家更可能和民主国家 
进行贸易往来，同时，与其他国家相比，它们之间的军事冲突会更少影响到贸 
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易。这些经验分析都表明这些特征会影响贸易往来。 

在贸易研究中一个常常被忽略的问题是，成对的观测值之间可能并不是相 
互独立的。尽管有很多研究考虑到这个问题，一对有顺序的观测值在时间先后 
上可能并不是独立的(见 Beck & Katz , 1996) ，但是大部分研究都假设不同对 
的观测值在同一个时间点上可以被认为相互独立。然而，在贸易往来研究中， 
我们有足够多的理由相信这种假设不成立。因为每个国家将和众多国家组成 
不同的组对，所以成对数据的结果会很复杂。首先，和的贸易流通并不 
能看作相互独立，因为它们的贸易输出方相同。第二，通常从国家 〖到 j 的贸易 
流通 ( T —,) 将和反方向的从 j 到 i 的贸易流通 ( r ^) 呈正向关系。这种数据中 
还常常发现高阶依赖关系 [13] 。经济学家们通常会将和的值取平均， 
然后用分解方法分析这个三角矩阵，但这种方法却使得观测值之间的依赖关系 
更强。此外，众所周知，大部分报告中的贸易数据是基于其他贸易流通数据的 
插补估计方法得到的(例如 Rozanski & Yeats , 1994) 0 这种插补方法可能导致 
数字之间的序列相关。比如，世界银行报告的贸易数据就同班佛定律 
( Benford’s Law ) 预计的首位数字分布 （distribution of first digits ) 存在显著差 
异，班佛定律是一种常用于检验数据质量和识别数字是否捏造的方法 [14] 。 

该例子就适于使用空间滞后误差模型，因为我们认为某些成队组的误差项 
之间相互关联，而不是观测到的在贸易流通上相互关联。净流通量将取决于成 
对的国家数量，但仅仅依靠这一点还没有考虑到由于成对依赖性所导致的误差 
变化。前面我们讨论了两个个体之间地理上的距离和连接状态。在这里，我们 
将依赖结构定义为成对国家间拥有一个共同的成员国，但这种依赖结构并不是 
传统意义上的“空间”。不过这并不阻碍我们将空间概念应用到非地理距离概 
念中。在这个例子中，我们的加权方案是，如果成对国家中包含 〖或 j 中的任何 
一个，则被看成是和这对国家相连。有关“距离”替代概念的更多讨论，可 
以参见贝克，格里蒂奇和比尔兹利 ( Beck，Gleditsch and Beardsley ，2006)， 迪沃 
斯和伊萨德 (Deutsch and Isard , 1961) ，以及洛夫达哈 ( Lofdahl ，2002) 的研究。 

在经验应用举例中，我们参考格里蒂奇 ( Gleditsch ，2002 b ) 研究中使用过的 
欧洲和非洲成对贸易数据。具体来说，我们用7、表示国家£到 j 的输出量。非 



洲和欧洲的样本为我们提供了很有趣的比较，包括数据质量的变化，我们预计欧 
洲的贸易数据将比非洲的数据更精确，因为它们的基础设施以及经济活动监测能 
力都存在差异。该例子中所有的数据来源于1卯8年。在我们的样本中，贸易流动 
的“观察”数据来自于国际货币基金组织及其他国际机构，它们占欧洲所有成对数 
据的75%左右(比如格里蒂奇 2002 b 数据中原始编码以0或2开头的数据)。然 
而，对非洲而言，利用官方报告的数字我们将仅仅得到贸易流通数据中15%的成 
对数据。在该例子中，对于欧洲我们将仅仅使用官方报告的数据，而在非洲贸易 
流通分析中，我们将使用所有可能的、甚至是有争议的数据来源作为估计。 

标准的“万有引力模型”的变量包括经济规模，两个成员国的人口（数据来 
源于 Gleditsch ，2002 b ) 和它们首都之间的距离。此外，我们的模型参考了现有 
文献中贸易的政治决定因素，并包括两个国家政治取向的相似性，这种相似性 
的测量是通过两个国家在联合国投票记录中的 S 相似性得分得到的(见 Gartz - 
ke ， 1998； Signorino Ritter ，1999)。 民主的测量来自于 POLITY IV 数据。 
我们对数据进行适当的调整，包括对没有被纳人到自由屋 (Freedom House ) 原 
始数据中的国家的 POLITY 数据也进行了估计根据贾格斯和格尔 ( Jag - 
gers and Gurr , 1995) 对制度化民主测量的 21 点量表，我们选取了两个数值中较 
低的那个，经过重新调节比例，使得所有的值都为正。最后，我们也考虑了成对的 
两个国家是否曾卷入军事化国际争端(见 Jones，Bremer and Singer , 1996)。 


source ("chapter3data. R f, ) 

tab3.sem〈- errorsarlm(logtrade ~ logcfem + logapop + logbpop + 
logargdppc + logbrgdppc 十 logs + logdist + logmid, 
data = logdat98, na. action = na. omit, 
nb21istw(dlist, style ="W M ), method ="eigen") 
summary (tab3. sem) 
logLik(tab3. sem) 
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表 3. 2和表 3. 3分别列岀了欧洲和非洲成对贸易往来的 OLS 和空间相关 
误差模型估计结果。从2可以看出，非洲和欧洲样本中的成对贸易伙伴之间都 
存在很强的空间正向相关。同时，通过比较 OLS 和空间误差模型估计结果可以 
看出，当我们考虑到成对成员的残差空间相关，而不是把它们视为相互独立的 
观测值时，原有文献中强调的贸易变化的政治决定因素发生了很大的改变。尤 
其是当我们考虑到成对成员的空间相关关系之后， MID 所起的负向作用的估计 
系数在欧洲样本中降低了大约25%，在非洲样本中降低了大约40%。在非洲样 
本中，民主的估计系数降到了原有大小的1/4,而在欧洲样本中该系数增大了约 
15%。此外，空间误差模型中的个体系数估计值的标准误一般比 OLS 结果更 
大，这表明如果将个体成对观测值视为相互独立，由于模型中错误的标准误可 
能导致对估计结果过于肯定。更一般地说，尽管按照惯例标准，系数中并没有 
从“显著”变为“不显著”的情况发生，但很多独立成对个体假设下得到的明显结 
果，在考虑到空间依赖关系之后，变得不那么稳健。 


表 3. 2出口， 欧洲： 


亦 县 


QLS 



SEM 


重 

A 

SE(^) 

z Value 

A 

P 

SE0) 

z Value 

截距 

-32. 70 

0.67 

-48. 82 

一 33. 94 

1.71 

-19. 90 

民主对数 

0. 38 

0. 06 

5. 93 

0. 43 

0. 10 

4. 38 

;人口对数 

0.86 

0. 02 

40.37 

0. 89 

0. 03 

31. 46 

j 人口对数 

0. 75 

0.02 

34. 93 

0. 77 

0. 03 

27,33 

i 人均 GDP 对数 

L 54 

0. 04 

35. 23 

1. 56 

0. 06 

17. 35 

j 人均 GDP 对数 

1. 01 

0. 04 

23,07 

1. 03 

0. 06 

7.66 

S 对数 

0. 33 

0. 05 

6.92 

0. 35 

0. 05 

7. 69 

i ㈠ j 距离对数 

-0. 34 

0. 01 

-24. 33 

-0. 34 

0. 01 

-25. 83 

争端对数 

— 1. 94 

0. 27 

-7. 14 

— 1.48 

0. 29 

一 5. 01 

A 

A 




0.98 

0. 01 

73.73 

N 


1500 



1500 


自由度(專） 


8 



9 


对数似然值 


— OOOA Q 



— OOQQ CCQ 


(Log likelihood) 








注: SEM 表示空间误差模型。 
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表丄 3 出口，非 洲: IUj 




OLS 



SEM 


变重 


SE 0) 

z Value 


SE 0 ) 

z Value 

截距 

-7.41 

0, 33 

-22. 38 

-7. 47 

1. 45 

— 5. 16 

民主对数 

-0. 04 

0. 04 

—1. 08 

—0.01 

0. 05 

一 0. 15 

/人口对数 

0. 26 

0. 01 

20.51 

0. 26 

0. 02 

14. 45 

j 人口对数 

0. 23 

0. 01 

17.81 

0. 23 

0. 02 

12. 55 

f 人均 GDP 对数 

0. 38 

0. 02 

17.96 

0.38 

0. 03 

12.78 

j 人均 GDP 对数 

0.31 

0.02 

14. 82 

0.31 

0. 03 

10. 55 

S 对数 

3.41 

0. 40 

8. 50 

3. 43 

0. 47 

7. 24 

距离对数 

-0. 17 

0. 01 

—20. 81 

一 0_17 

0.01 

-22. 21 

i ㈠ j 争端对数 

-0.71 

0.18 

一 3, 85 

一 0.42 

0. 18 

— 2. 37 

A 

A 




0. 99 

0.01 

124.2 

N 


2550 



2550 


自由度 w 


8 



9 


对数似然值 


—3096. 2 



— 2945. 9 


(Log likelihood ) 








小结 


在本章中，我们介绍了有关空间依赖关系的空间相关误差模型。在通常情 
况下，由于我们很难(尽可能地)完全基于统计标准判断空间相关误差模型和空 
间滞后^模型孰好孰坏，所以研究者们应当考虑这两种模型哪种能够为空间依 
赖关系提供最可信的解释。我们前面已经提 到:空 间滞后^模型更适合于处理 
当因变量的邻近值的变化对该个体因变量产生直接影响的情况，而空间相关误 
差模型更适用于当我们确信模型系统部分某些未观测到的特征，可能导致模型 
的误差出现空间相关模式的情况。在成对个体相互依赖的例子中，某个国家与 
很多观测值构成了不同的组对，这也 表明： 空间依赖概念可以从地理距离扩展 
到度量学的距离。 



第 4 章 I 扩展 


本书前面的章节讲解了将空间类型引入社会科学数据中进行分析的必要 
性和益处。我们介绍了如何将这种方法纳人常见的线性回归框架——空间滞 
后因变量模型和空间误差模型。在空间滞后因变量模型中，与 M 相连的单位将 
对％产生影响;在空间误差模型中，相连观测值的误差之间存在空间相关。这 
两种是最广泛使用的空间回归模型，它们有很多广泛应用。然而，空间回归模 
型也有很多其他的类型，以及在很多我们没有提及的情况下的扩展应用，并且我 
们前面的关注也仅局限在连续变量的横截面数据上。在本节中，我们列出了一些 
空间回归模型的扩展应用，以及空间分析可能面临的棘手问题。尽管我们的回顾 
非常简略并且不能提供涵盖这些扩展和替代方法的实际例子，但是我们提供了进 
一 步阅读的参考建议。比万德，佩勃斯玛和戈麦斯-卢比奥 ( Bivand，Pebesma and 
Gomez - Rubio , forthcoming ) 提供了这些方法基于 R 统计软件的教学材料。 


识别连接性 


如何建构和处理观测值之间的连接，是分析中研究者所面临的一个关键问 
题。大多数空间回归模型的应用都事先假定了观测值之间的连接图。如何建 
立这些连接取决于有关观测值在实际中如何关联的理论或者直觉。在实际操 
作中,这些建立方法都是出于方便考虑或者是基于最新的常用方法。研究者们 
需要注意的是，选择不同的连接方法和编码方法可能意味着认识世界的不同观 
点。不同的结果可能造成个体直接连接形式的差异，但这并不是什么大问题。 
更微妙的地方在于这些选择也会影响空间结构中的空间乘子和模型中的协方 



高 « s » 分析 


差结构 ( Wall ， 2004)。即便是在地理距离的连接情况下，同样的空间布局可能 
由于研究者不同的决定而产生不同的连接结构。为了说明这一点，我们可以参 
考三种常见空间编码的差 异:车 (Rook ， 共同边界）、象 (Bishop ， 共同顶点），或后 
(Queen ， 同时包括边界和顶点） ，见图 4. 1所示的美国局部地图。科罗拉多州和 
犹他州是具有共同边界和共同顶点的 邻州。 科罗拉多州和亚利桑那州没有共 
同的边界，但有共同的“顶点”。在当前的世界国家政治边界地图中，我们只发 
现了一个类似的情况:非洲西南的卡普利维地带 (the Caprivi Strip )。 



亚利桑那州 新墨西哥州 


图 4.1 美国四角区域 

更典型的情 况是: 如果个体距离在某个范围内，也就是行政中心或者地理 
质心或中心之间的最短距离，研究者们就将它们视为“相近”。格里蒂奇和沃德 
(Gleditsch and Ward , 2001) 讨论了常用的中点测量存在的一些问题，也就是当 
个体的行政中心和边界相差很远或者是个体的奇怪形状导致中心不在版图之 
内的情况。划定过于窄的范围可能生成很多岛屿，这个问题我们在第1章新西 
兰的例子中提到过。从澳大利亚阿利斯斯普林斯 (Alice Springs ) 到新西兰克赖 
斯特彻奇 ( Christchurch ) 大约为4100千米，相当于巴黎到达累斯萨拉姆 (Dar es 
Salaam ) 的距离。这表明如果我们用澳大利亚和新西兰版图中心的距离作为标 
准并用到其他国家的话，那么大部分非洲国家、中东和亚洲国家都将成为法国 
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的邻国。划定标准过大的话将导致所有个体都相连。图 4. 2表明两幅国家连接 
图中，当中心连接距离从400千米(图 a ) 变为4000千米(图 b ) 时，连接密度的急 
剧增加。如果针对特定的个体设定连接规则，或者选取&个最相邻的观测值相 

(a) 



图七2国家之间的连接,4000千米和400千米的距离、基于版图中心间的 距离: 
(a)400 千米； （b}4000 千米 



互连接，则会引出另外一个问题，即为什么不对其他的个体也使用同样的标准。 
然而，这种特定规则在应用研究中不仅可能有用，而且是必要的。总的说来，对 
连接编码的不同选择总会对经验结果产生实质性的影响，因为通过不同的网络 
扩散将带来不同的结论。 

基于非地理性测量的连接，比如贸易往来，可能存在其他的问题。更确切 
地说，如果非地理性的距离测量是基于实际空间回归模型中已有的变量，那连 
接将可能不是外生性的，这将导致模型识别和估计上的问题。研究者需要设计 
出与空间互动过程相匹配的连接矩阵。尽管拟合优度和交叉验证方法有助于 
剔除错误选择，但是连接性的设计其实是一个理论问题，并不可能使用简单的 
诊断或者探索方法来定义唯一“正确”的连接方式。我们还要强调的是，连接性 
识别上的困难也增大了检验空间依赖关系的零假设的难度，因为拒绝零假设只 
是针对某种特定连接方式而言的。 

处理连接性 

在识别出连接矩阵以后，如何在分析中处理连接矩阵则是另外一个问题。 
我们应当对所有的连接赋予相同的权重，还是应当根据观测值大小或重要性给 
予一些观测值不同的权重？在本书的例子中，我们假设俄罗斯和爱沙尼亚和与 
它们相连的国家之间的权重相同。然而，并没有谁规定所有的连接就应当使用 
相同权重。针对具体研究问题，研究者可能尝试不同的加权方法。 

在回归模型中，我们仅仅考虑了行标准化矩阵 W 的情况，也就是所有的连 
接权重相加为1。这种标准化的优点在于空间滞后 y 和 J 具有同样的潜在测 
量标准或单位。然而，标准化是否合理还是应当具体问题具体分析。举例来 
讲，默多克等人 (Murdoch et al . ， 1997) 关注过一个国家的污染排放量如何受到 
其他国家排放的影响。这个问题涉及总的污染排 放量; 这时利用相连国家的数 
量来对连接矩阵进行标准化可能就不适用了。 

分析者可以将空间统计文献中惯用的做法作为参考，并仔细分析它们在自 
己的研究中是否行得通。比较有用的方法是多考虑几种替代方法。 



一个对多个的连接 


到目前为止，我们讨论了具有单一空间依赖项并表示成单一连接矩阵的例 
子。在很多情况下，可能会出现多种连接网络或者依赖形式的情况。通常可行 
的方法是根据地理距离或者其他政治网络（比如贸易合作、文化相似性，或者种 
族戈! J 分、职业划分)考虑几种不同的连接方法(见 Beck et al . ，2006； Lacombe , 
2004; Lin et al . ， 2006)。 直接影响不仅可能来源于一阶连接，也可能是高阶连 
接。图 4. 3画出了前面例子中提到的158个国家的一阶和高阶连接。 

空间滞后^模型可以被推广到包括两个(或更多)不同连接矩阵 W A 和 W B 
的形式，并通过如下表达式分别估计参数 A 和 P 各自的相对影响。 

yi = + pi vi^y + +( 

扩展后的空间滞后^模型变得比标准空间自回归模型更难估计。假如这 
两个矩阵差别足够大并且不包含重复信息，那么这个模型便可以估计。如果这 
两个矩阵太相似，那么就会出现诸如经典回归模型中的共线性问题。前面讨论 
过的最大似然法也可以应用到这种情况(尽管还没有在 R 中实现）。这种模型 
也可以用工具性变量来估计。 


推论与模型评估 


和社会科学中的大多数数据一样，空间数据也不是来自于随机样本。空间 
分析需要一个相对完整的空间覆盖，这是因为包含太多缺失值的数据可能使对 
空间聚集影响或者相邻单位之间影响的统计推论变得毫无意义。虽然经典统 
计推论在很大程度上是基于渐进性假设，但在很多空间情况中这一点却很难证 
明。实质上，这要求某地区邻地的数量不会随着该地区的大小而剧烈变化。即 
便满足这一点，研究中的空间数据看上去并不像一个样本，而是像截面上的某 
个地区或者是整个世界。这使得我们需要找出符合研究背后社会过程的合理 
的模型，也就是原则上产生观测数据的模型。经典的方法可能是基于一种概括 
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( a ) 


( b ) 




图 4.3 158 个国家一阶和二阶连接,基于最近邻国距离为 200 千米: 
{*0 — 阶； （ b ) —阶和二阶 


性的“超总体 ( supei - population ) ”概念，也就是观测到的空间类型在现实中的体 
现，但是这种概念在贝克、韦斯特和韦斯 ( Berk ， Western , Weiss , 1995) 那种所 
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谓的“明显的总体 (apparent population ) ”的空间分析中并不适合。 

这种难题的一个可能的解决办法是以探索性的态度看待估计结果，并且按 
照格斯尔 ( Geisser ， 1974, 1975) 的方法，用空间回归估计中没有用到的数据进 
行交叉检验，来检查模型的估计好坏。在空间背景下，这种方法可以通过利用 
后一个时间段或不同空间领域的观测数据来实现。比如，比万德 （ Bivand ， 
2002) 就将数据分成两个地理区域，根据它们对数据另一半的观测值的预测能 
力，来评估不同建模方法的好坏。 

离散和潜变量 

我们前面假设 y 应当是连续变量。然而社会科学家感兴趣的很多现象都是 
离散的，也就是说以二分的或者计数的形式出现。另外，看到的结果也可能来 
自于潜在社会过程的一部分。这就好比线性回归只是这些数据的次优选择一 
样，这里估计的模型也不一定最适合这些数据。然而，将滞后因变量或者自回 
归过程扩展到二分情况或者计数数据也是可能的，比如在自相关逻辑斯蒂 ( au - 
tologistic ) 模型中，相邻个体的: v 值会影响 Pr(^i = 1) 的情况 （ Besag ， 1972, 
1974； Christensen 8^ Waagepetersen , 2002； Huffer Wu , 1998； Ward & 
Gleditsch , 2002)。 估计这些模型将比估计连续变量的情况复杂得多，因为 y 同 
时出现在方程的两边，这使得似然值很难处理。传统的方法在估计中将相连观 
测值的^视为固定，但是当前的计算能力使得利用模拟方法估计整个似然值成 
为可能。 


空间异质性 


通常回归中的主要效应为固定效应 (fixed effects ) ，这表明自变量和因变量 
之间的关系是无处不在的。然而这种关系可能在世界上某个地方不同于其他 
地方，空间异质性指的就是这种效应和地理_件有关。空间异质性既为我们提 
供了了解研究现象的机会，也给研究带来了困难。一方面，它让我们可以分解 
回归结果，使得这些结果能更好地反映不同地区的情况。另一方面，它又违背 
了标准回归中所有分析数据方差相同的假设。地理加权回归，即 GWRCGeo - 



graphically Weighted Regression ) ，作为一种数据探索的开创性方法，让我们利 
用某一位置的相邻观测值作为权重，估计每一个地理位置的回归系数。布伦 
森、弗泽林哈姆和查尔顿 ( Brundson，Fotheringham and Charlton , 1996) 发展了 
空间分析中的这种方法，更多详细内容可以见弗泽林哈姆、查尔顿和布伦森 
( Fotheringham , Charlton and Brundson , 2002) 的研究。在政治科学中，一个最 
近的例子来自卡尔沃和埃斯科拉 (Calvo and Escolar , 2003) ;人口学中一项有意 
思的应用是厄舍克和皮纳斯古鲁 ( I§ik and Pinarcioglu , 2007) 的研究。 

点和地理统计数据 

前面的方法都是将地理空间看作可以划分的。比如国家被看作一个个格 
子，表明每个国家都可以在地图上找到一个方格，没有哪个国家占有超过一个 
方格的位置。在很多数据中，这种方法都是有用的，但并不是所有的现象都 
可以被视为区域或者格子，通常数据也不是按照这种格式来表现的。事实 
上，很多类型的数据都是地理上点数据的形式，这样每个观测值确切或者近 
似的位置是一个连续的地质结构 ( topology ) ，而不是想象中的一个格子。地理 
统计学方法试图根据某个地理区域具体位置的信息创建空间共变模型，从而 
使连续的地理学变成地理统计形式。一种方法称为克里金 ( KrigingtlG ) 法， 
由马特隆 ( Mtheron ，1963) 正式发展而来，但以南非采矿工程师丹尼 • 克里格 
( DanieG . Krige ) 的名字命名，因为他开创了距离加权后测绘平均黄金等级的 
方法。这种方法广泛用于地球物理科学，现在也用于社会科学 (Cho & Gimpel , 
2007)。尽管以往研究用到的都是大样本汇总层面的数据或者没有空间识别特 
征的数据，但是现在可用的地理细分数据或者明显与地理相关的数据变得越来 
越多。 


多层模型 

在贝斯格 ( Besag ，1974) 的早期贡献之后，有相当多的研究讨论了条件自回 
归模型 (Conditionally Autoregressive Model ， CAR )。 在条件模型中，在某个地 
点观测到的随机变量取决于其邻近的外生观测值。在多变量和多层模型中，不 
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仅空间滞后变量需要是外生的，而且其他的解释变量也需要为外生。当前很多 
研究都在利用这种方法，有的是关注几个结果因变量。当前这些工作可以见 
金，班纳吉和卡林 ( Jin ， Banerjee , and Carlin , 2007) 以及茄和海尔德的研究 
(Rue and Held ， 2005)。 

另一种建立空间变化模型的相关方法是用多层方法考察本地变化的来 
源。多层空间模型是将不同分析层次的不确定性来源整合在一起。这种模型 
通过概率分布将不同层次的分析联系起来。在民主与发展的例子中，可以包 
括如下层次：（1)本国国内政党派系和机构的变化，它们会影响日常政治和经 
济的波动； （2) 邻里效应，指某个相邻国家和另一国家之间存在很强的联系并且 
受其 影响; （3) 基于一系列国家所产生的区域效应，包括有些沿着地区边界运作 
的组 织①; （4) 全球化的力量，它会不同程度地影响到每一个国家，比如全球市场上 
的某些商品。模型中如果明确和详细说明了这些变化的来源，则属于多层模型。 

当前处理这种观点的方法都是基于贝叶斯方法，也就是它依赖于迭代法 
[马尔可夫链蒙特卡罗方法 （Markov chain Monte Carlo )、 吉布斯抽样 （Gibbs 
Sampling )、 Metropolis - Hasting 等算法]来得到一套所有层次的空间过程的参 
数分布。这种方法需要很多计算，但是很有前景。当前的 R 软件包 spBayes 也 
可以帮助实现单变量和多变量空间模型的马尔可夫链蒙特卡罗计算 （ Finley ， 
Banerjee 8^ Carlin ， 200 7 )。沃勒、卡林、夏和盖尔芬德 ( Waller ， Carlin , Xia and 
Gelfand , 1997) 提供了 一项很有影响的应用，班纳吉等人 （Banerjee et al , ， 
2004) 为多层方法提供了很好的综述。 


时间序列数据 


我们已经讨论了在同一时间段里横截面观测数据的模型估计。社会科学 
的很多分析都是基于时间序列的横截面 (Time Series Cross Section ， TSCS ) 数 
据结构，也就是同一个个体有多个不同时间点上的观测。空间滞后^模型也可 


①比如前文提到的经济合作和发展组织 (Organization for Economic Cooperation and Develop - 
mem ， OECD ) 就是这样一种情况。该组织中的成员国之间彼此的相互影响可能大于来自于其他国家 
的影响。——译者注 
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以扩展到 TSCS 数据的 情况： 

yi. t = + puuiyi.t^tu.t 

该模型可能会面临时间上的序列相关问题，因为％,可能会和 3^,^ 非常相 
似，进而造成误差独立假设的问题。一种解决方法是通过加人^的时间间隔， 
从而有： 

yu t = t-\ +^u tj3 + p t w i y l , t +(u t 

如果我们想要同时说明时间和空间的依赖性，估计包含联立空间依赖性的 
TSCS 模型是相当困难的。如果我们在右边加入滞后因变量， y 的误差项6的 
雅克比行列式转换 (Jacobian of the transformation ) 将变得相当复杂，并且据我 
们所知，当前还没有人得到这种模型的满意估计。然而，如果假设九，对相邻的 
3^的影响的发生具有一个时间滞后（比如0的话，就可以用 OLS 方法，因为 
与 y 相关的邻近值可以被视为在时间 r 之前就预先确定。这将 得到： 

yi, t = 妙 “ 卜 1 +x i ,^+pw i y ij 1 

空间效应中引入时间滞后量通常被认为和假设瞬时效应一样都是合理的。 
此外，还可以通过对模型估计残差进行适当的检验，尤其是交叉检验和样本外 
的探索方法，来检验模型在多大程度上成功解释了空间和时间依赖性(更多讨 
论，见 Beck et aL ，2006)。 

小结 

空间依赖关系在很多社会现象中都发挥着重要作用。将空间层面引入分 
析中也是完全可行的，但是需要附加一些假设和信息。随着统计和计算机技术 
的发展，空间数据分析的障碍得以消减，我们期待它能给社会科学家们感兴趣 
的社会和空间过程带来新的见解。以往的经验让我们相信社会科学数据中具 
有很多未发现的依赖特征。只要将这些特征中的一部分考虑进来就可以产生 
全新的重要的启发。 
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在很长一段时间里，标准统计软件包都不能提供空间估计值，这使得感兴 
趣的研究者需要自己编程序或者购买安瑟林的 SpaceStat 软件。在过去几年中 
这种情况发生了很大的改变。在本部分中，我们将介绍一些可用的软件选择。 

很多软件选项都依赖于奥德方法 (Ord Approach ) ，在最优化之前估计矩阵 
W 的特征值，不过现在一些其他方法也用更快的佩斯和巴里方法 （Pace and 
Barry approach ) 。很多软件包都要求输入 tiXw 的全秩矩阵。但这对于大样本 
的数据集来说很难做到。因为通常连接矩阵中会有很多0存在，软件选项中如 
果有用稀疏矩阵 (sparse matrix ) 表示的话，就可以应用到更大的数据集上。 

这里我们列出空间分析的一些软件选项。 

(1) 安瑟林 SpaceStat 软件如今已不是安瑟林个人掌管的一个单独的软件 
包，而是卖给了一个商业公司，成为地理视觉化程序 TerraSeer 的一部分(见 
http ：// www . terraseer , com / products — spacestat . php )。 该软件的费用非常昂 
贵，即便是对学术用途而言也是。旧版本的 SpaceStat 在 MS - DOS 系统中运 
行，使用传统的菜单式界面。它也是依赖于奥德方法来计算加权矩阵的行列 
式，同时需要全部的矩阵表达式以进行估计。我们对当前的: T ^ mSar 产品不 
太了解， 因 此不知它和以前的版本有何 差别。 

(2) 安瑟林和他的同事们开发出一种新的软件包叫做 GeoDa ， 可见 http ；// 
www . geoda . uiuc . edu /。 GeoDa 可以进行探索性空间数据分析和简单的空间 
回归分析。 GeoDa 界面完全是通过点击来完成的，而不需要任何 编程; 然而它 
不允许用户自定义或者修改其中的设置，这和一般化的统计软件包不同。安瑟 
林 ( Anselin ， Syabri ， Kho , 20( H ) 等人表明这种软件主要是作为初学软件包，当 



富鱖回扫分析 


用户了解了 DeoDa 中的技术之后，可以逐步过渡到 R(p.3 )。 

(3) 皮萨蒂 ( Pisati ) 编写的 Stata ^ spatreg 可以估计空间自回归和误差模 
型。这个程序或者宏不好的地方在于它依赖于奥德方法，因而需要全部的矩阵 
表达式。 Stata 的标准版本 (standard Intercooled version ) 里同样还对矩阵大小 
有限制。参见 S 〖 aZa 的技术报吿 （technical Bulletin)sgl 62 。安装帮助见 
中的 help stb 0 

(4) 比万德 (Roger Bivand) 开发了本书中讨论的模型的 R 软件包(功办 />) 。 
这个软件包还允许连接矩阵具有稀疏形式 (sparse list )。 比万德还开发了各种 
整合 R 和 GRASS 的材料， GRASS 是一种开源的 GIS 程序。此外，很多功能还 
可以用来制作地图，以及从 R 的 Arcview 的形文件 (shapefiles) 中提取信息。更 
多有关该软件包的细节可见： http://cran. r-project. org/src/contrib/Descrip- 
tions/spdep. html 。 这些功能和软件后台都是开放源代码并且免费的。 

(5) 一些有关空间分析的 MATLAB 教材也已出版。佩斯和巴里 (Pace and 
Barry ) 的空间统计学 (Spatial Statistics ) 可以在 http ：// www . spatial - statistics , 
com / 免费获得。 MATLAB 本身并不是免费的。勒萨热 ( LeSage ) 的空间计量经 
济学 (Spatial Econometrics ) 工具箱，可以在 http ：// www . spatial - econometrics , 
com 获取，它在估计大样本的数据集时非常有用，并且可以用于利用 saw () 命 
令，估计具有两个连接矩阵的空间自回归模型。 

(6) 来自 ESRI 公司最新版本的商业软件包 Ai?C/iVFO 包括很多可以用于 
空间形式数据集的统计分析工具，尤其是其中的 Statistical Analyst 工具包。它 
特别擅长于计算邻里数据和进行分类分析。 

(7) Splus 来自于 Insightful 公司。 和 R —样，它也是基于 S 统计语言。它 
包括一个能提供很多空间相关数据分析的模块 (SpatialStats )。 其他工具还包 
括地理统计的、点状的以及格子状的空间数据。 

(8) WINBUGS ( http :/ / www # mrcHbstu cam . ac . uk / bugs /) 和 GeoBUGS 是 
两个针对贝叶斯分析的程序。 GeoBUGS 由一个流行病学家开发来作为 Win - 
BUGS 的附加程序。它支持(相对较小的)空间模型的贝叶斯分析。 

(9) 斯卡本伯格和果特威 （Schabenberger and Got way , 2005) 提供了 SAS 
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中分析空间数据的宏和程序的扩展集，这些可以从出版商的网页上 找到: WWW. 
crcpress. com G 

(10) 空间多层方法可以很容易在 R 软件包 spBayes 中找到，它可以进行常 
用的 MCMC(Markov Chain Monte Carlo ) 计算 （Finley et al . ， 2007)。 
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注释 _ 

[1] 然而在社会科学中很少应用点数据。一个例外来自于最近曹和金佩尔 ( ChoandGimpel ，2007) 
的研究。 

[2] 在空间点过程条件下，有时这被称为合算统计量 ( Join-coimt statistics ) ，因为它们计算了包含相 
似联合分布的邻近点的数量。 

[3] 葛兰德 ( Grenander ，1954) 指出即便对于均值的最小无偏估计也不应该忽略相关联的观测值 
的值。 

[^i +<1-(0) ⑽乂 +)”] 

^ [«_(w —2) 户] 

[4] 吉尔里 (Geary) 和莫兰 (Mo ran ) 都对很多领域做出了重要贡献.吉尔里因斯通一吉尔里效用函 
数 (StoneOeary utility function) 和计算真实收人的等同购买力的国际比较而出名。 

[ 5 ] 数据获取方式 http : // privatewww . essex . ac . uk / 〜 ksg / mindist . html 。 

[6] 莫兰 I 用于处理单个变量。当模型中明显存在多个变量时，比如 （) LS 残差的例子，我们推荐使用 
—个略微修改的莫兰统计量，用于防止过髙估计空间相关性。实际上，由于差别细微，通常在两 
种情况下都使用标准的莫兰统计量。特菲尔斯多夫 ( Tiefelsdorf ，1972) 发展出一种潜在分布的 
鞍点 ( saddlepoint ) 近似法，这种方法在匹配分布尾部的很多情况下都比莫兰 I 要好。在这个问题 
上我们感谢罗杰 • 比万德 （Roger Bivand ) 的周到建议。 R 的 spdep 函数 lia morantest sad () 可 
以执行特菲尔斯多夫的鞍点法。一个更直观的方法是利用拉格朗日乘子检验 (Lagrange multi ¬ 
plier test ) 来检验空间自相关的具体形式，在下一章当中我们将会详细叙述。 

[7] 正如海宁 （ Haining ， 2003, pp . 276— 283) 提出，如果自变量之间存在很强的空间相关性，标准莫 
兰 I 可能过高估计残差的空间相关性。 

[8] 用巴尔多夫一尼尔森 ( Bamdorff - Nielsen ) 鞍点调整方法得到略微减小的 估计: 相对应的值为 6. 9。 

[9] 还可以设想出更多类似的分解方法 ( decomposition )， 比如引入多层协变量使得它们仅仅影响到 
某个具体区域或者行政区内的观测值。本书中将不讲解这种方法。 

[10] 2004年选举数据可以从 http ；// www . fee . gov / pubrec / fe 2004/ federalelections 2004. pdf 获取。 

[11] 有关非嵌套检验的例子可以参见 Clarke (200 l) o 

[12] 对该种以及其他依赖关系更详尽的考査可以参考 Ward and Hoff (2007) ;针对二元因变量，见 
Ward , Si verson » and Cao ( 2007) 。 

[13] Wasserman and Faust (1994) 总结过这种成对数据中三个一组的情况，主要是社会网络分析。 

[14] 首位数字法则 ( first-digit law )， 以物理学家弗兰克 • 班佛命名，它说明数据中的第一位数字最常 
见为1，越大的数字将越少见，或者更确切地说，数字出现的频数接近于。这种法则适用于大样 
本分布的、自然产生的数据，同时它还表明如果数据的分布和这种分布相差很大,则表明数据质 
量较低甚至可能是捏造的数据。 

[15] 见 http : // privatewww . essex . ac . uk / 〜 ksg / polity - data * htmU 

[16] 根据发明者的名字， Kriging 应当被读作 “ Kricking ”。 



空间回归模型 


参考文献 _ 

Adolph, C. A. (2004). The dilemma of discretion : Career ambitions and the politics of central 
banking. Unpublished doctoral dissertation. Harvard University, Cambridge, MA. 

Anselin, L. (1988). Spatial econometrics : Methods and models. Dordrecht, The Netherlands* 
Kluwer. 

Anselin, 1^ (1995). Local indicators of spatial association-LISA. Geographical Analysis * 27, 93- — 
115. 

Anselin ， L* ， Syabri, L » &- Kho, Y, (2004). GeoDa x An introduction to spatial data analysis 
( Typescript ), Urbana-Champaign : Department of Agricultural and Consumer Economics, 
University of Illinois. 

Banerjee^ S. » Carlin, R P• Gelfand, A. EL (2004). Hierarchical modeling and analysis for 
spatial data. Boca Raton, FL ： Chapman &. HalL 

Baybeck, B, , Huckfeldt, R (2002). Urban contexts, spatially dispersed networks, and the dif¬ 
fusion of political information. Political Geography , 21 , 195 — 220. 

Beck, N. > Gleditsch, K. S. , Beardsley* K. (2006). Space is more than geography ： Using spatial 
econometrics in the study of political economy. International Studies Quarterly^ 50 9 27 一 44. 

Beck, N■ Katz, J. N. (1996). Nuisance vs. substance ： Specifying and estimating timeseries — 
Cross-section models. Political Analysis ， 6, 1 一 36. 

Berk，R A* ， Western, R ，& Weiss, R. K (1995). Statistical inference for apparent populations 
(with discussion). Sociological Methodology , 25 , 421 — 485. 

Besag, J. E, (1972). Nearest-neighbour systems and the auto-logistic model for binary data* Jour- 
nal of the Royal Statistical Society , Series B » Methodological，34 ， 75 — 83* 

Besag, J. E. (1974). Spatial interaction and the statistical analysis of lattice systems (with discus¬ 
sion). Journal of the Royal Statistical Society , Series B f Methodological , 36 9 192 — 225. 

Bivand» R (2002). Spatial econometrics functions in R ： Classes and methods. Journal of Geo¬ 
graphical Systems , 4 , 405—^421. 

Bivand, R » Pebesma, E. , Gomez-Rubio, V. (forthcoming). Applied spatial data analysis 
with R. New York ： Springer. 

Boots, Bl N. , Tiefelsdorf, M. (2000). Global and local spatial autocorrelation in bounded regular 

tessellations. Journal of Geographical Systems , 2 , 319 — 348, 

Brundson, C. , Fotheringham, A. St * & Charlton, M (1996). Geographically weighted regres^ 
sion ： A method for exploring spatial nonstationarity. Geographical Analysis > 28 ^ 281^298. 

Burkhart, R , Lewis-Beck, M. (1994). Comparative democracy ： The economic development 
thesis. American Political Science Review , 88 ， 903 — 910. 

Calvo, EL « Escolar» M. (2003)_ The local voter ； A geographically weighted approach to ecologi¬ 
cal inference. American Journal of Political Science ， 47, 189 — 204. 

Cho, W. K. T. , GimpeU J. G. (2007). Prospecting for (campaign) gold American Journal of 
Political Science , 51 , 255 — 268. 



富毅 B 扫分析 


Christensen, O. F. , &- Waagepetersen, R (2002). Bayesian prediction of spatial count data using 
generalized linear mixed models. Biometrics ， 58 ， 280 —— 286. 

Clarke, K. A. (2001). Testing nonnested models of international relations ： Reevaluating realism. 
American Journal of Political Science 9 45, 724 一 744. 

Cleveland, W. Sl (1993). Visualizing data. Summit, NJ: Hobart Press. 

Cliff, A, D. , & Ord, J. K. (1971). Evaluating the percentage points of a spatial all tocorrelation co¬ 
efficient Geographical Analysis , 4 , 51 —— 62, 

Cressie, N. A. C (1993). Statistics for spatial data (rev. ed )• New York ： Wiley. 

Dalgaard, P. (2002). Introductory statistics zvith R. Berlin ： Springer* 

Deutsch ， K. W. , Isard, W. (1961). A note on a generalized concept of effective distance. Behav¬ 
ioral Science , 6 , 308 — 311. 

Feenstra* R C » Rose, A. K. Markusen, J. R (2001). Using the gravity model to differentiate 
among alternative theories of trade. Canadian Journal of Economics ， 34 ， 430 — 447. 

Finley, A. O. , Baneijee, S. , & Carlin, B. P. (2007, April). spBayes : An R package for univariate 
and multivariate hierarchical point-referenced spatial models. Journal of Statistical Software » 
(4). Retrieved October 29, 2007， from http ： //www. jstatsoft. org/vl9. 

Fotheringham, A. S. , Charlton, M , Brundson, C. (2002). Geographically weighted regres¬ 
sion * The analysis of spatially varying relationships. New York ： Wiley. 

Franzese. R. (1999). Partially independent central banks，politically responsive governments, and 
inflatioa American Journal of Political Science , 43 ， 681 — 706. 

Franzese, R, , &• Hayes, J. C. (2007). Spatial econometric models for the analysis of TSCS data in 
political science. Political Analysis > 15 ， 140 — 164. 

Gartzke, K (1998). Kant we all just get along? Opportunity, willingness and the origins of the 
democratic peace. American Journal of Political Science , 42 f 1 —— 27. 

Geisser♦ S. (1974). A predictive approach to the random effect modeL Biometrika ， 61 ， 101 — 107. 

Geisser, S. (1975). The predictive sample reuse method with applications. Journal of the American 
Statistical Association ， 70 ， 320—328. 

Getis, A* , Boots, B. (1978). Models of spatial processes. Cambridge, UK ： Cambridge Univer¬ 
sity Press. 

Getis, A. , &- Ord, J. K. (1996 乂 Local spatial statistics ： An overview. In P. Longley &• M. Batty 
(Eds. ) ♦ Spatial analysis : Modelling in a GIS environment {pp. 261 — 277). Cambridge, UK ： 
Geoinformation International. 

Geyer, C. J. , &- Thompson, E. A. (1992). Constrained Monte Carlo，maximum likelihood for de¬ 
pendent data (with discussion). Journal of the Royal Statistical Society , Series B , Methodo¬ 
logical t 54 f 657 一 699. 

Gleditsch* K. S. (2002a). All international politics is local : The diffusion of conflict > Integra- 
tion, and democratization. Ann Arbor ： University of Michigan Press. 

Gleditsch, IC S. (2002b). Expanded trade and GDP data. Journal of Conflict Resolution * 46 ， 
712—724. 

Gleditsch, K. S* , Ward, M D. (1997). Double take ： A re-examination of democracy and autoc- 



空间回归模型 


racy in modem polities. Journal of Conflict Resolution ， 41 ， 361 — 382, 

Gleditsch，K* Su ， &* Ward, M. D. (2000). War and peace in time and space； The role of democrati¬ 
zation. International Studies Quarterly , 44 , 1 — 29. 

Gleditsch, K. S. » &- Ward, M D. (2001). Measuring space： A minimum distance database and ap- 
plications to international studies. Journal of Peace Research ， 38 ， 749 — 768. 

Gleditsch, K. S. , Ward，M D. (2007). The diffusion of democracy and the international context 
of democratization. International Organization , 60 , 911 — 933, 

Grenander, U. (1954), On the estimation of regression coefficients in the case of autocorrelated dis¬ 
turbance. Annals of Mathematical Statistics ， 25 ， 252 — 272. 

Griffith，D. A. (1996)* Some guidelines for specifying the geographic weights matrix contained in 
spatial statistical models. In S. ArHnghaus (Ed ) ， Practical handbook of spatial statistics 
(pp. 65 — 83). Boca Raton, FL： CRC Press. 

Griffith, D. A (2003). Using estimated missing spatial data with the 2-median modeL Annals of 
Operations Research , 122 233 — 247. 

Haining, R (2003). Spatial data analysis : Theory and practice (1st ed )• Cambridge, UK： 
Cambridge University Press. 

Holmes» T. J. (2006，February). Geographic spillover and unionism. National Bureau of Economic 
Research (Working Paper Series 12025)* Retrieved October 17, 2007， from http：//www. 
nber. org/papers/w 12025. 

Hubert, L. J. , Golledge, R. G. , Constanzo, C. M (1981). Generalized procedures for evalua¬ 
ting spatial autocorrelatioa Geographical Analysis , 12 , 224 — 233. 

Huffer, F. W. r Wu，H_ (1998). Markov chain Monte Carlo for autologistic, regression models 
with application to the distribution of plant species. Biometrics ， 54 , 509. 

Imai, K (2005). Do get-out-the-vote calls reduce turnout? The importance of statistical methods 
for field experiments. American Political Science Review ， 99 ， 283 — 300. 

4ik，O, ， & Pinarciofelu, M. M. (2007). Geographies of a silent transition： A geographically 
weighted regression approach to regional fertility differences in Turkey, European Journal of 
Population ， 22 f 399 一 421. 

Jaggers* K. , 8^ Gurr，T. R* (1995). Tracking democracy’s “Third Wave” with the Polity ffl data. 
Journal of Peace Research , 32 f 469 — 482. 

Jin，X ， Baneijee, S. , Carlin，P. (2007). Order-free coregionalized areal data models with 
application to multiple disease mapping. Joumal of the Royal Statistical Society , Series B , 
69, 817—838. 

Johnson* S. (2006). The ghost map. New York： Riverhead Books. 

Jones, D. M , Bremer, S. A* ， & Singer, ]. D. (1996). Militarized interstate disputes, 1816 — 
1992： Rationale，coding rules, and empirical applications. Conflict Management and Peace 
Science^ 15 j 163 — 213. 

Keele, L. , &• Kelly, N. J. (2006). Dynamic models for dynamic theories： The tns and outs of 
lagged dependent variables. Political Analysis , 14 y 186 — 205, 

Kenny, D. (1981). Interpersonal perception： A multivariate round robin analysis. In M. BL Brewer 



m •扫分析 


B* K Collins (Eds. ) , Scientific inquiry and the social sciences* A volume in honor of Don¬ 
ald T. Campbell (pp. 288 — 309). San Francisco: Jossey-Bass. 

Kidron* M (1981). The state of the -world atlas. New York： Simon Schuster. 

Lacombe, D. (2004). Does econometric methodology matter? An analysis of public policy using spa¬ 
tial econometric techniques. Geographical Analysis , 36 ， 105 — 118. 

Learner, EL EL (1978). Specification searches : Ad hoc inference ivith non-experimental data- New 
York： Wiley. 

Lee, C *S. (2005), Income inequality, democracy, and public sector size. American Sociological 
Review, 70 ^ 158 — 181. 

Leontief, W, W # (1986). Input-output economics. New York： Oxford University Press. 

Lin，T. -M. , Wu» C -E. , Lee，F. Y. (2006). Neighborhood influence on the formation of na¬ 
tional identity in Taiwan： Spatial regression with disjoint neighborhoods. Political Research 
OwarterZ》， 59， 35 — 46. 

Lipset, & M. (1959). Some social requisites of democracy. American Political Science Review , 53 , 
69 — 105* 

Lofdahl* C. (2002), Environmental impacts of globalization and trade-. A systems study. Cam¬ 
bridge： MIT Press. 

Malloy, T. » &- Kenny, D. A. (1986). The social relations model： An integrative method for per¬ 
sonality research. Journal of Personality » 54， 199 — 225. 

Matheron, G. (1963). Principles of geostatistics. Economic Geology , 55, 1246 — 1266, 

Moran, P, A, P, (1950a). Notes on continuous stochastic phenomena, Biometrika , 37, 17 一 23. 

Moran, P. A. P. (1950b). A test for serial independence of residuals. Biometrika , 37 , 178 — 181. 

Morrow, J. D. , Si verson, R M. , &* Tabares，T. E* (1998), The political determinants of interna¬ 
tional trade： The major powers, 1907 — 90. American Political Science Review ， 92^ 
649—661. 

Murdoch, J. C. , Sandler, T. , &- Sargent, K. (1997). A tale of two collectives* Sulfur versus ni¬ 
trogen oxides emission reduction in Europe. Economics ， 64, 281 — 301. 

Ord, J. K. (1975). Estimation methods for models of spatial interactions. Journal of the American 
Statistical Association , 70 * 120 — 126. 

Ord, J. K. , Getis T A. (1995). Local spatial autocorrelation statistics： Distributional issues and 
an application. Geographical Analysis ， 27 ， 286 — 306. 

Pollins* B. M. (1989a). Conflict> cooperation, and commerce： The effect of international political 
interactions on bilateral trade flows* American Journal of Political Science , 33 ， 737 — 761. 

Pollins, B, M. (1989b). Does trade still follow the flag? A model of international diplomacy and 
commerce. American Political Science Review , 83 » 465 — 480. 

R Development Core Team. (2004). 2?； A language and environment for statistical computing • 
Vienna, Austria： R Foundation for Statistical Computing (ISBN 3-900051-00-3； http；//www. 
R-project org). 

Ripley, RD. (1981). Spatial statistics. New York: Wiley. 

Ripley» B. D. (1988). Statistical inference for spatial processes, Cambridge, UK： Cambridge Uni- 



空间回归模型 


537 


versity Press. 

Rose, A. K. (2004). Does the WTO really increase trade? American Economic Review , 94, 
98—114. 

Rozanski ， J. ， & Yeats, A. (1994). On the (in)accuracy of economic observations ： An assessment 
of trends in the reliability of international trade statistics. Journal of Development Economics * 
44, 103—130. 

Rue, H. , Held, L. (2005). Gaussian Markov random fields : Theory and applications, 
don ： Chapman &- Hall. 

Schabenberger, O. , & Gotway, C. A (2005). Statistical methods for spatial data analysis 
Raton, FL ： Chapman Hall. 

Shin, M. E. (2001). The politicization of place in Italy. Political Geography , 20 f 331 — 352. 

Shin , 脱 E* , Agnew, J. (2002). The geography of party replacement in Italy, 1987 — 1996. Po¬ 
litical Geography, 21 ^ 221—242. 

Shin, M. E. , Agnew, J. (2007a). Berlusconi 5 Italy : Where it started , where it ended. Phila¬ 
delphia ； Temple University Press, 

Shin, M E. , Agnew, J. (2007b). The geographical dynamics of Italian electoral change, 1987 — 
2001. Electoral Studies , 26 , 287 一 302. 

Signorino ， C . ， Ritter, J. (1999)* Tau-b or not tau-b. International Studies Quarterly 9 43 ， 
115 — 144. 

Tiefelsdorf, M. (1972). The saddlepoint approximation of Moran’s I and local Moran’s I: Reference 
distributions and their numerical evaluation. Geographical Analysis » 34 , 187 — 206. 

Tufte, R R (1990). Envisioning information, Cheshire, CT ： Graphics Press. 

Tufte, K R. (1992). The visual display of quantitative information, Cheshire ， CT ； Graphics 
Press. 

Tufte，K R (1997). Visual explanations : Images and quantities , evidence and narrative. Chesh¬ 
ire, CT* Graphics Press. 

Varian, H. R. (1972). Benford's law., American Statistician , 26 » 65. 

Wainer, H. (2004). Graphic discovery ： A trout in the milk and other visual adventures. Prince¬ 
ton, NJ : Princeton University Press. 

Wall, M M. (2004). A close look at the spatial structure implied by the CAR and SAR models. 
Journal of Statistical Planning and Inference , 121 , 311 — 324. 

Waller, L. A. , Carlin, B, P. , Xia, H. , &- Gelfand, A, E, (1997). Hierarchical spatio-temporal 
mapping of disease rates* Journal of the American Statistical Association ， 92 ， 607 — 617, 

Ward, M. D. , & Gleditsch, K. S. (2002). Location, location, location ： An MCMC approach to 
modeling the spatial context of war and peace. Political Analysis, 10 , 244—-260. 

Ward, M. D. , Hoff, P. D. (2007). Persistent patterns of international commerce. Journal of 
Peace Research , 44 ， 157^~175. 

Ward, M. D. , Siverson，R M. , Cao, X. (2007). Disputes, democracies, and dependencies ： A 
reexamination of the Kantian peace. American Journal of Political Science , 51 * 583 — 601. 

Wasserman, S. , &- Faust, K. (1994). Social network analysis : Methods and applications. Cam- 


.Lon- 

.Boca 



畜缓 sa 分析 


bridge, UK ： Cambridge University Press. 

Watts, D. J, (2003), Six degrees : The science of a connected age. New York: W. W* Norton. 
West ， W, J. (2005). Regional cleavages in Turkish politics : An electoral geography of the 1999 and 
2000 national elections* Political Geography , 24 , 499 — 523. 

You, J. -S. , Khagram, S. (2005). A comparative study of inequality and corruption. American 
Sociological Review ， 70 ， 136 — 157. 



空间回归模型 


译名对照表 


ad hoc 

事先设定的 

apparent population 

明显的总体 

areal data 

地区数据 

autologistic 

自相关逻辑斯蒂 

Benford’s I^aw 

班佛定律 

bias 

偏误 

Collegi 

学院 

Conditionally autoregressive model, CAR 

条件自回归模型 

cross-validation 

交叉验证 

distribution of first digits 

首位数字分布 

equilibrium impact 

均衡效应 

fixed effects 

固定效应 

Geary’s C 

吉尔里 C 统计量 

Gibbs Sampling 

吉布斯抽样 

global correlation 

全球相关 

Imputation 

插补方法 

inconsistency 

不一致 

Intercept 

截距 

inverse 

逆矩阵 

Jacobian of the transformation 

雅克比行列式转换 

kernel density 

核密度分布 

lattice data 

晶格数据 

IvOcal Indicator of Spatial Association, LISA 

局部空俩相关指标 

map mashups 

地图混搭程序 

Markov chain Monte Carlo 

马尔可夫链蒙特卡罗方法 

Maximum likelihood estimator, MLE 

最大似然估计量 

Mean Squared Errors 

均方误 

mean-normalized cross-product 

均值正态化后得到的内积 

metric 

度量学 

Monte Carlo simulation 

蒙特卡洛模拟 

Moran I 

莫兰 I 统计量 

Ord Approach 

奥德方法 

out-of-sample prediction test 

样本外的预测检验 

Parsimony 

简约性 

point data 

点状数据 
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point processes 
pooled OLS 
rug plot 


点过程 

合并数据的 OLS 
毯图 


Shin Plot 

锡恩图 

Shin spatial scatterplot 

锡恩空间散点图 

simultaneity 

共时性 

simultaneous model 

联立模型 

sparse list 

稀疏形式 

sparse matrix 

稀疏矩阵 

spatial autoregressive 

空间自回归 

Spatial Econometrics 

空间计量经济学 

Spatial Error 

空间性误差 

Spatial lag 

空间滞后 

Spatial Statistics 

空间统计学 

Spatially Lagged Dependent Variable 

空间滞后因变量 

super-population 

超总体 

Time Series Cross Section, TSCS 

时间序列的横截面 



